Articles of apache spark

Apache pyspark utilizando oracle jdbc para extraer datos. No se puede encontrar el controlador

Estoy usando apache spark pyspark (spark-1.5.2-bin-hadoop2.6) en Windows 7. Sigo recibiendo este error cuando ejecuto mi script python en pyspark. Ocurrió un error al llamar a o23.load. java.sql.SQLException: No se encontró un controlador adecuado para jdbc: oracle: thin: ——————————— —conexión Aquí está mi archivo de python import os os.environ[“SPARK_HOME”] = “C:\\spark-1.5.2-bin-hadoop2.6” os.environ[“SPARK_CLASSPATH”] = “L:\\Pyspark_Snow\\ojdbc6.jar” from […]

Pyspark Spark DataFrame – Agregue y filtre las columnas en la columna de tipo de mapa

Mi DataFrame ve como: | c1 | c2| c3 | |—-+—+——- | A | b | 22:00| | A | b | 23:00| | A | b | 09:00| | A | c | 22:00| | B | c | 09:30| Me gustaría realizar algunas agregaciones y crear un segundo DataFrame con 3 columnas: c1 […]

ERROR AL EJECUTAR RECOGER () EN PYSPARK

Estoy tratando de separar el nombre del sitio web de la URL. Por ejemplo, si la URL es www.google.com, la salida debería ser “google”. Probé el siguiente código y todo funciona bien, excepto la última línea: “websites.collect ()”. Utilicé un dataframe para almacenar los nombres de los sitios web y luego lo convertí en un […]

Crear una sola fila de datos de la lista de lista PySpark

Tengo datos como estos data = [[1.1, 1.2], [1.3, 1.4], [1.5, 1.6]] Quiero crear un dataframe de PySpark Ya uso dataframe = SQLContext.createDataFrame(data, [‘features’]) pero siempre consigo +——–+—+ |features| _2| +——–+—+ | 1.1|1.2| | 1.3|1.4| | 1.5|1.6| +——–+—+ ¿Cómo puedo obtener un resultado como el siguiente? +———-+ |features | +———-+ |[1.1, 1.2]| |[1.3, 1.4]| |[1.5, […]

PySpark crea una nueva columna con mapeo desde un dict

Usando Spark 1.6, tengo una DataFrame column Spark DataFrame column (llamada digamos col1 ) con los valores A, B, C, DS, DNS, E, F, G y H y quiero crear una nueva columna (digamos col2 ) con los valores del dict aquí abajo, ¿cómo mapeo esto? (por lo tanto, la ‘A’ debe asignarse a ‘S’, […]

Seleccionar valores superiores de chispa en RDD

El conjunto de datos original es: # (numbersofrating,title,avg_rating) newRDD =[(3,’monster’,4),(4,’minions 3D’,5),….] Quiero seleccionar las mejores N avg_ratings en newRDD. Utilizo el siguiente código, tiene un error. selectnewRDD = (newRDD.map(x, key =lambda x: x[2]).sortBy(……)) TypeError: map() takes no keyword arguments Los datos esperados deben ser: # (numbersofrating,title,avg_rating) selectnewRDD =[(4,’minions 3D’,5),(3,’monster’,4)….]

Encuentre la media y la corrección de 10,000 columnas en el Dataframe de pyspark.

Tengo DF con columnas de 10K y 70 millones de filas. Quiero calcular la media y la corrección de 10K columnas. Lo hice debajo del código pero no funcionará debido a un problema de tamaño de código 64K ( https://issues.apache.org/jira/browse/SPARK-16845 ) Datos: region dept week sal val1 val2 val3 … val10000 US CS 1 1 […]

cargar la tabla de bigquery a spark cluster con el script pyspark

Tengo una tabla de datos cargada en bigquery y quiero importarla en mi clúster de chispa a través de un archivo .py de pyspark. Vi en Dataproc + BigQuery ejemplos, ¿hay alguno disponible? que había una manera de cargar una tabla de bigquery en el clúster de chispas con scala, pero ¿hay una manera de […]

Agregue PySpark RDD como nueva columna a pyspark.sql.dataframe

Tengo un pyspark.sql.dataframe donde cada fila es un artículo de noticias. Luego tengo un RDD que representa las palabras contenidas en cada artículo. Quiero agregar el RDD de las palabras como una columna denominada ‘palabras’ a mi dataframe de nuevos artículos. Lo intenté df.withColumn(‘words’, words_rdd ) pero me sale el error AssertionError: col should be […]

¿Cómo se puede visualizar el modelo de árbol de decisión en Spark (pyspark)?

Estoy tratando de visualizar la estructura del árbol de decisión en pyspark. Pero todas las herramientas son para datos. No pude encontrar ninguna para visualizar la estructura de un árbol. ¿O hay una manera en que puedo visualizar usando las reglas de toDebugString ?