Articles of pyspark

Cómo convertir la cadena a ArrayType del diccionario (JSON) en PySpark

Intentando convertir StringType en ArrayType de JSON para un CSV generado a partir de un dataframe. Usando pyspark en Spark2 El archivo CSV que estoy tratando; es como sigue – date,attribute2,count,attribute3 2017-09-03,’attribute1_value1′,2,'[{“key”:”value”,”key2″:2},{“key”:”value”,”key2″:2},{“key”:”value”,”key2″:2}]’ 2017-09-04,’attribute1_value2′,2,'[{“key”:”value”,”key2″:20},{“key”:”value”,”key2″:25},{“key”:”value”,”key2″:27}]’ Como se muestra arriba, contiene un atributo “attribute3” en cadena literal, que técnicamente es una lista de diccionario (JSON) con una longitud […]

RDD solo tiene el valor de la primera columna: Hbase, PySpark

Estamos leyendo una tabla de Hbase con Pyspark usando los siguientes comandos. from pyspark.sql.types import * host= port= keyConv = “org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter” valueConv = “org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter” cmdata_conf = {“hbase.zookeeper.property.clientPort”:port, “hbase.zookeeper.quorum”: host, “hbase.mapreduce.inputtable”: “CMData”, “hbase.mapreduce.scan.columns”: “info:Tenure info:Age”} cmdata_rdd = sc.newAPIHadoopRDD(“org.apache.hadoop.hbase.mapreduce.TableInputFormat”,”org.apache.hadoop.hbase.io.ImmutableBytesWritable”,”org.apache.hadoop.hbase.client.Result”,keyConverter=keyConv,valueConverter=valueConv,conf=cmdata_conf) output = cmdata_rdd.collect() output Estoy obteniendo el resultado de la siguiente manera. (Clave y Edad) [(u’123′, u’5′), (u’234′, […]

Creando histogtwigs binados en Spark

Supongamos que tengo un dataframe (df) (Pandas) o RDD (Spark) con las siguientes dos columnas: timestamp, data 12345.0 10 12346.0 12 En Pandas, puedo crear un histogtwig en intervalos de diferentes longitudes de contenedores con bastante facilidad. Por ejemplo, para crear un histogtwig en 1 hora, hago lo siguiente: df = df[ [‘timestamp’, ‘data’] ].set_index(‘timestamp’) […]

PySpark – Superposición de tiempo para objeto en RDD

Mi objective es agrupar objetos en función de la superposición de tiempo. Cada objeto en mi rdd contiene un start_time y end_time . Probablemente estoy haciendo esto de manera ineficiente, pero lo que planeo hacer es asignar una identificación de superposición a cada objeto en función de si se ha superpuesto en algún momento con […]

el uso de Word2VecModel.transform () no funciona en la función de mapa

He construido un modelo de Word2Vec usando Spark y lo guardo como modelo. Ahora, quiero usarlo en otro código como modelo fuera de línea. He cargado el modelo y lo he usado para presentar el vector de una palabra (por ejemplo, Hola) y funciona bien. Pero, necesito llamarlo para muchas palabras en un RDD usando […]

Chispa – Operación RDD anidada

Tengo dos RDD dicen rdd1 = id | created | destroyed | price 1 | 1 | 2 | 10 2 | 1 | 5 | 11 3 | 2 | 3 | 11 4 | 3 | 4 | 12 5 | 3 | 5 | 11 rdd2 = [1,2,3,4,5] # lets call these […]

Guarde el modelo mllib de Apache Spark en python

Estoy tratando de guardar un modelo ajustado en un archivo en Spark. Tengo un clúster Spark que entrena un modelo RandomForest. Me gustaría guardar y reutilizar el modelo ajustado en otra máquina. Leí algunas publicaciones en la web que recomiendan realizar la serialización de Java. Estoy haciendo el equivalente en python pero no funciona. ¿Cuál […]

Pickling a Spark RDD y leerlo en Python

Estoy intentando serializar un Spark RDD decapado y leer el archivo encurtido directamente en Python. a = sc.parallelize([‘1′,’2′,’3′,’4′,’5’]) a.saveAsPickleFile(‘test_pkl’) Luego copio los archivos test_pkl a mi local. ¿Cómo puedo leerlos directamente en Python? Cuando bash el paquete normal de pickle, falla cuando bash leer la primera parte de pickle de ‘test_pkl’: pickle.load(open(‘part-00000′,’rb’)) Traceback (most recent […]

¿Cómo combinar n-grams en un vocabulario en Spark?

Preguntándose si hay una función Spark incorporada para combinar las funciones 1, 2, n-gramo en un solo vocabulario. La configuración de n=2 en NGram seguida de la invocación de los resultados de CountVectorizer en un diccionario que contiene solo 2 gramos. Lo que realmente quiero es combinar todos los frecuentes 1 gramos, 2 gramos, etc. […]

¿Cómo calcular la diferencia de fecha en pyspark?

Tengo datos como este: df = sqlContext.createDataFrame([ (‘1986/10/15’, ‘z’, ‘null’), (‘1986/10/15’, ‘z’, ‘null’), (‘1986/10/15’, ‘c’, ‘null’), (‘1986/10/15’, ‘null’, ‘null’), (‘1986/10/16’, ‘null’, ‘4.0’)], (‘low’, ‘high’, ‘normal’)) Quiero calcular la diferencia de fecha entre low columna low y el 2017-05-02 y reemplazar low columna low con la diferencia. He intentado soluciones relacionadas en stackoverflow pero ninguna de […]