Articles of hadoop

java.lang.OutOfMemoryError: no se puede adquirir 100 bytes de memoria, se obtuvo 0

Estoy invocando Pyspark con Spark 2.0 en modo local con el siguiente comando: pyspark –executor-memory 4g –driver-memory 4g El dataframe de entrada se está leyendo desde un archivo tsv y tiene 580 K x 28 columnas. Estoy realizando algunas operaciones en el dataframe y luego trato de exportarlo a un archivo tsv y obtengo este […]

Spark puede acceder a la tabla Hive desde pyspark pero no desde spark-submit

Por lo tanto, cuando se ejecuta desde pyspark yo escribiría (sin especificar ningún contexto): df_openings_latest = sqlContext.sql(‘select * from experian_int_openings_latest_orc’) .. y funciona bien. Sin embargo, cuando ejecuto mi script desde spark-submit , como spark-submit script.py pongo lo siguiente en from pyspark.sql import SQLContext from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName(‘inc_dd_openings’) sc = SparkContext(conf=conf) […]

Las tareas activas son un número negativo en la interfaz de usuario de Spark.

Al usar spark-1.6.2 y pyspark , vi esto: donde vea que las tareas activas son un número negativo (la diferencia entre las tareas totales y las tareas completadas). ¿Cuál es la fuente de este error? Nodo que tengo muchos ejecutores. Sin embargo, parece que hay una tarea que parece haber estado inactiva (no veo ningún […]

¿Cómo ejecuto graphx con Python / pyspark?

Estoy intentando ejecutar Spark graphx con Python usando pyspark. Mi instalación parece correcta, ya que puedo ejecutar los tutoriales de pyspark y los tutoriales de GraphX ​​(Java) muy bien. Presumiblemente, dado que GraphX ​​es parte de Spark, pyspark debería poder interconectarlo, ¿correcto? Aquí están los tutoriales para pyspark: http://spark.apache.org/docs/0.9.0/quick-start.html http://spark.apache.org/docs/0.9.0/python-programming-guide. html Aquí están los de […]

Cómo enviar el trabajo de hadoop MR de forma remota en el clúster de Amazon EMR

Situación actual: tengo un cluster EMR. En el nodo maestro: tengo un progtwig en Python que realiza una llamada de subproceso y ejecuta el script que contiene la siguiente línea. El subproceso activa el trabajo de MR y escribe la salida en HDFS que uso más adelante. /usr/bin/hadoop jar test.jar testing.jobs.TestFeatureJob /in/f1.txt /in/f2.txt Que quiero […]

SPARK SQL falla si no hay una ruta de partición especificada disponible

Estoy usando Hive Metastore en EMR. Puedo consultar la tabla manualmente a través de HiveSQL. Pero cuando uso la misma tabla en Spark Job, dice que la ruta de entrada no existe: s3: // Causado por: org.apache.hadoop.mapred.InvalidInputException: La ruta de entrada no existe: s3: // …. He eliminado mi ruta de partición anterior en s3: […]

Ejecución de un trabajo utilizando hadoop streaming y mrjob: PipeMapRed.waitOutputThreads (): el subproceso falló con el código 1

Hola, soy bastante nuevo en el mundo de Big Data. Encontré este tutorial en http://musicmachinery.com/2011/09/04/how-to-process-a-million-songs-in-20-minutes/ Describe en detalle cómo ejecutar el trabajo MapReduce usando mrjob localmente y en Elastic Map Reduce. Bueno, estoy tratando de ejecutar esto en mi propio usuario de Hadoop. Ejecuté el trabajo usando el siguiente comando. python density.py tiny.dat -r hadoop […]

Conectar a los datos S3 de PySpark

Estoy intentando leer un archivo JSON, de Amazon s3, para crear un contexto de chispa y usarlo para procesar los datos. La chispa está básicamente en un contenedor docker. Así que poner archivos en la ventana acoplable también es PITA. Por lo tanto, lo empujó a S3. El siguiente código explica el rest de las […]

Streaming Hadoop – No se puede encontrar el error de archivo

Estoy tratando de ejecutar un trabajo en python hadoop–streaming. bin/hadoop jar contrib/streaming/hadoop-0.20.1-streaming.jar -D stream.non.zero.exit.is.failure=true -input /ixml -output /oxml -mapper scripts/mapper.py -file scripts/mapper.py -inputreader “StreamXmlRecordReader,begin=channel,end=/channel” -jobconf mapred.reduce.tasks=0 Me aseguré de que mapper.py tenga todos los permisos. Se equivoca diciendo Caused by: java.io.IOException: Cannot run program “mapper.py”: error=2, No such file or directory at java.lang.ProcessBuilder.start(ProcessBuilder.java:460) at org.apache.hadoop.streaming.PipeMapRed.configure(PipeMapRed.java:214) […]

streaming hadoop: ¿cómo ver los registros de aplicaciones?

Puedo ver todos los registros de hadoop en mi /usr/local/hadoop/logs ruta pero ¿dónde puedo ver los registros de nivel de aplicación? por ejemplo : mapper.py import logging def main(): logging.info(“starting map task now”) // — do some task — // print statement reducer.py import logging def main(): for line in sys.stdin: logging.info(“received input to reducer […]