Articles of parque de atracciones

PySpark cuenta los valores por condición

Tengo un DataFrame, un fragmento de código aquí: [[‘u1’, 1], [‘u2’, 0]] básicamente, un campo de cadena denominado f y un 1 o un 0 para el segundo elemento ( is_fav ). Lo que debo hacer es agrupar en el primer campo y contar las ocurrencias de 1s y 0s. Esperaba hacer algo como num_fav […]

Pyspark: uso de repartitionAndSortWithinPartitions con múltiples clasificaciones Critiria

Suponiendo que estoy teniendo el siguiente RDD: rdd = sc.parallelize([(‘a’, (5,1)), (‘d’, (8,2)), (‘2’, (6,3)), (‘a’, (8,2)), (‘d’, (9,6)), (‘b’, (3,4)),(‘c’, (8,3))]) ¿Cómo puedo usar repartitionAndSortWithinPartitions y ordenar por x [0] y después de x [1] [0]? Usando lo siguiente, ordeno solo por la clave (x [0]): Npartitions = sc.defaultParallelism rdd2 = rdd.repartitionAndSortWithinPartitions(2, lambda x: […]

Error al utilizar reducebykey: el objeto int no se puede suscribir

Recibo un error “el objeto int no se puede suscribir” al ejecutar el siguiente script: element.reduceByKey( lambda x , y : x[1]+y[1]) with element es un RDD de clave-valor y el valor es una tupla. Ejemplo de entrada: (A, (toto , 10)) (A, (titi , 30)) (5, (tata, 10)) (A, (toto, 10)) Entiendo que la […]

matriz de pyspark con variables ficticias

Tiene dos columnas: ID Text 1 a 2 b 3 c ¿Cómo puedo crear una matriz con variables ficticias como esta? ID abc 1 1 0 0 2 0 1 0 3 0 0 1 ¿Usando la librería pyspark y sus características?

Funciones de los paquetes de Python para udf () del dataframe Spark

Para el dataframe Spark a través de pyspark, podemos usar pyspark.sql.functions.udf para crear una user defined function (UDF) . Me pregunto si puedo usar alguna función de los paquetes de Python en udf() , por ejemplo, np.random.normal from numpy?

Transmitir una clase definida por el usuario en Spark

Estoy tratando de transmitir una variable definida por el usuario en una aplicación PySpark pero siempre tengo el siguiente error: File “/usr/local/spark-2.1.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/worker.py”, line 174, in main process() File “/usr/local/spark-2.1.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/worker.py”, line 169, in process serializer.dump_stream(func(split_index, iterator), outfile) File “/usr/local/spark-2.1.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/serializers.py”, line 268, in dump_stream vs = list(itertools.islice(iterator, batch)) File “/home/…/sparkbroad.py”, line 29, in output = input_.map(lambda item: […]

Seleccionando solo nombres de columnas numéricas / de cadena de un Spark DF en pyspark

Tengo un SparkDataFrame en pyspark (2.1.0) y estoy buscando obtener los nombres de solo columnas numéricas o solo columnas de cadena. Por ejemplo, este es el esquema de mi DF: root |– Gender: string (nullable = true) |– SeniorCitizen: string (nullable = true) |– MonthlyCharges: double (nullable = true) |– TotalCharges: double (nullable = true) […]

Pyspark reemplaza cadenas en la columna de dataframe Spark

Me gustaría realizar algunos pasos básicos en una columna de Spark Dataframe reemplazando subcadenas. ¿Cuál es la forma más rápida de hacer esto? En mi caso de uso actual, tengo una lista de direcciones que deseo normalizar. Por ejemplo, este dataframe: id address 1 2 foo lane 2 10 bar lane 3 24 pants ln […]

¿Cómo afecta el número de particiones a `wholeTextFiles` y` textFiles`?

En la chispa, entiendo cómo usar wholeTextFiles textFiles wholeTextFiles y textFiles , pero no estoy seguro de cuál usar cuándo. Esto es lo que sé hasta ahora: Cuando se trata de archivos que no están divididos por línea, uno debe usar wholeTextFiles , de lo contrario use textFiles . Pienso que, de forma predeterminada, wholeTextFiles […]

¿Por qué obtengo resultados nulos de date_format () función de PySpark?

Supongamos que hay un cuadro de fecha con una columna compuesta de fechas como cadenas. Para esa suposición, creamos el siguiente DataFrame como ejemplo: # Importing sql types from pyspark.sql.types import StringType, IntegerType, StructType, StructField, DoubleType, FloatType, DateType from pyspark.sql.functions import date_format import random import time def strTimeProp(start, end, format, prop): stime = time.mktime(time.strptime(start, format)) […]