Articles of parque de atracciones

¿Cómo usar los marcos de datos dentro de una función de mapa en Spark?

Definiciones: sampleDF es un sampleDF muestra que tiene un registro de lista para fines de búsqueda. sampleDS es un RDD con una lista de elementos en él. mappingFunction es buscar los elementos de sampleDS en sampleDF y sampleDF a 1 si existen en sampleDF y a 0 si no existen. Tengo una función de mapeo […]

¿Cómo hacer que Apache Spark mapPartition funcione correctamente?

Estoy tratando de hacer un trabajo basado en cada partición y me gustaría devolver los mismos datos como entrada: from urllib3 import HTTPConnectionPool rdd = sc.parallelize([“peter”, “john”, “harris”]) def sendPartition(iterator): pool = HTTPConnectionPool(‘ajax.googleapis.com’, maxsize=10) for record in iterator: r = pool.request(‘GET’, ‘/ajax/services/search/web’, fields={‘q’: ‘urllib3’, ‘v’: ‘1.0’}) return iterator rdd.mapPartitions(sendPartition).count() Estoy recibiendo este error: TypeError: el […]

el archivo no existe – chispa enviar

Estoy intentando lanzar una aplicación de chispa usando este comando: time spark-submit –master “local[4]” optimize-spark.py Pero tengo estos errores: Using Spark’s default log4j profile: org/apache/spark/log4j-defaults.properties 16/01/27 15:43:32 INFO SparkContext: Running Spark version 1.6.0 16/01/27 15:43:32 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable 16/01/27 15:43:32 INFO SecurityManager: Changing […]

Dividiendo una columna en pyspark

Estoy tratando de dividir un dataframe en pyspark Estos son los datos que tengo df = sc.parallelize([[1, ‘Foo|10’], [2, ‘Bar|11′], [3,’Car|12’]]).toDF([‘Key’, ‘Value’]) df = df.withColumn(‘Splitted’, split(df[‘Value’], ‘|’)[0]) tengo +—–+———+—–+ |Key|Value|Splitted | +—–+———+—–+ | 1| Food|10| F| | 2| Bar|11 | B| | 3| Caring 12| C| +—–+———+—–+ Pero yo quiero +—–+———+—–+ |Key | Value|Splitted| +—–+———+—–+ […]

Variables de transmisión de PySpark desde funciones locales

Estoy intentando crear variables de difusión desde los métodos de Python (tratando de abstraer algunos métodos de utilidad que estoy creando y que dependen de operaciones distribuidas). Sin embargo, parece que no puedo acceder a las variables de transmisión desde los trabajadores de Spark. Digamos que tengo esta configuración: def main(): sc = SparkContext() SomeMethod(sc) […]

¿La función distinta () de la chispa mezcla solo las tuplas distintas de cada partición?

Como entiendo notado (), el hash particiona el RDD para identificar las claves únicas. ¿Pero se optimiza al mover solo las diferentes tuplas por partición? Imagina un RDD con las siguientes particiones [1, 2, 2, 1, 4, 2, 2] [1, 3, 3, 5, 4, 5, 5, 5] De manera distinta en este RDD, ¿todas las […]

PySpark cuenta los valores por condición

Tengo un DataFrame, un fragmento de código aquí: [[‘u1’, 1], [‘u2’, 0]] básicamente, un campo de cadena denominado f y un 1 o un 0 para el segundo elemento ( is_fav ). Lo que debo hacer es agrupar en el primer campo y contar las ocurrencias de 1s y 0s. Esperaba hacer algo como num_fav […]

Pyspark: uso de repartitionAndSortWithinPartitions con múltiples clasificaciones Critiria

Suponiendo que estoy teniendo el siguiente RDD: rdd = sc.parallelize([(‘a’, (5,1)), (‘d’, (8,2)), (‘2’, (6,3)), (‘a’, (8,2)), (‘d’, (9,6)), (‘b’, (3,4)),(‘c’, (8,3))]) ¿Cómo puedo usar repartitionAndSortWithinPartitions y ordenar por x [0] y después de x [1] [0]? Usando lo siguiente, ordeno solo por la clave (x [0]): Npartitions = sc.defaultParallelism rdd2 = rdd.repartitionAndSortWithinPartitions(2, lambda x: […]

Error al utilizar reducebykey: el objeto int no se puede suscribir

Recibo un error “el objeto int no se puede suscribir” al ejecutar el siguiente script: element.reduceByKey( lambda x , y : x[1]+y[1]) with element es un RDD de clave-valor y el valor es una tupla. Ejemplo de entrada: (A, (toto , 10)) (A, (titi , 30)) (5, (tata, 10)) (A, (toto, 10)) Entiendo que la […]

matriz de pyspark con variables ficticias

Tiene dos columnas: ID Text 1 a 2 b 3 c ¿Cómo puedo crear una matriz con variables ficticias como esta? ID abc 1 1 0 0 2 0 1 0 3 0 0 1 ¿Usando la librería pyspark y sus características?