Articles of apache spark

¿Cómo agruparByKey un RDD, con DenseVector como clave, en Spark?

He creado un RDD con cada miembro siendo un par de valores clave, siendo la clave un DenseVector y un valor un int . p.ej [(DenseVector([3,4]),10), (DenseVector([3,4]),20)] Ahora quiero agrupar por la clave k1 : DenseVector([3,4]) . Espero que el comportamiento agrupe todos los valores de la clave k1 que son 10 y 20 . […]

pyspark: ml + streaming

Según Combining Spark Streaming + MLlib es posible hacer una predicción sobre un flujo de entrada en spark. El problema con el ejemplo dado (que funciona en mi clúster) es que testData es un derecho dado en el formato correcto. Estoy intentando configurar un cliente servidor tcp intercambio basado en cadenas de datos. No puedo […]

Dividir un diccionario en un dataframe Pyspark en columnas individuales

Tengo un dataframe (en Pyspark) que tiene uno de los valores de la fila como un diccionario: df.show() Y se parece a +—-+—+—————————–+ |name|age|info | +—-+—+—————————–+ |rob |26 |{color: red, car: volkswagen}| |evan|25 |{color: blue, car: mazda} | +—-+—+—————————–+ Basado en los comentarios para dar más: df.printSchema() Los tipos son cuerdas root |– name: string […]

¿Cómo usar los marcos de datos dentro de una función de mapa en Spark?

Definiciones: sampleDF es un sampleDF muestra que tiene un registro de lista para fines de búsqueda. sampleDS es un RDD con una lista de elementos en él. mappingFunction es buscar los elementos de sampleDS en sampleDF y sampleDF a 1 si existen en sampleDF y a 0 si no existen. Tengo una función de mapeo […]

Cómo ejecutar un archivo .sql en spark usando python

from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext conf = SparkConf().setAppName(“Test”).set(“spark.driver.memory”, “1g”) sc = SparkContext(conf = conf) sqlContext = SQLContext(sc) results = sqlContext.sql(“/home/ubuntu/workload/queryXX.sql”) Cuando ejecuto este comando usando: python test.py me da un error . y4j.protocol.Py4JJavaError: Se produjo un error al llamar a o20.sql. : java.lang.RuntimeException: [1.1] error: “ con ” esperado pero `/ […]

Spark ML Pipeline Causes java.lang.Exception: no se compiló … El código … crece más allá de 64 KB

Utilizando Spark 2.0, estoy tratando de ejecutar un VectorAssembler simple en un pipeline de pyspark ML, de esta manera: feature_assembler = VectorAssembler(inputCols=[‘category_count’, ‘name_count’], \ outputCol=”features”) pipeline = Pipeline(stages=[feature_assembler]) model = pipeline.fit(df_train) model_output = model.transform(df_train) Cuando trato de mirar la salida usando model_output.select(“features”).show(1) Me sale el error Py4JJavaError Traceback (most recent call last) in () 2 […]

El archivo .py de importación de Pyspark no funciona

Mi objective es importar un archivo .py personalizado a mi aplicación de chispa y llamar a algunas de las funciones incluidas dentro de ese archivo Esto es lo que intenté: Tengo un archivo de prueba llamado Test.py que tiene el siguiente aspecto: def func(): print “Import is working” Dentro de mi aplicación Spark hago lo […]

chispa de apache, “no se pudo crear ningún directorio local”

Estoy intentando configurar Apache-Spark en un pequeño clúster independiente (1 nodo maestro y 8 nodos esclavos). He instalado la versión “pre-construida” de la chispa 1.1.0 construida sobre Hadoop 2.4. He configurado la ssh sin contraseña entre nodos y he exportado algunas variables de entorno necesarias. Una de estas variables (que probablemente sea la más relevante) […]

Apache Spark lanza NullPointerException cuando encuentra una característica faltante

Tengo un problema extraño con PySpark al indexar la columna de cadenas en las características. Aquí está mi archivo tmp.csv: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1 donde tengo un valor faltante para ‘x0’. Al principio, estoy leyendo las características del archivo csv en DataFrame usando pyspark_csv: https://github.com/seahboonsiew/pyspark-csv y luego indexando x0 con StringIndexer: import […]

¿Cómo hacer que Apache Spark mapPartition funcione correctamente?

Estoy tratando de hacer un trabajo basado en cada partición y me gustaría devolver los mismos datos como entrada: from urllib3 import HTTPConnectionPool rdd = sc.parallelize([“peter”, “john”, “harris”]) def sendPartition(iterator): pool = HTTPConnectionPool(‘ajax.googleapis.com’, maxsize=10) for record in iterator: r = pool.request(‘GET’, ‘/ajax/services/search/web’, fields={‘q’: ‘urllib3’, ‘v’: ‘1.0’}) return iterator rdd.mapPartitions(sendPartition).count() Estoy recibiendo este error: TypeError: el […]