Articles of hadoop

hadoop-streaming: reductor en estado pendiente, ¿no arranca?

Tengo un trabajo de reducción de mapa que se estaba ejecutando bien hasta que comencé a ver algunas tareas de mapa fallidas como attempt_201110302152_0003_m_000010_0 task_201110302152_0003_m_000010 worker1 FAILED Task attempt_201110302152_0003_m_000010_0 failed to report status for 602 seconds. Killing! ——- Task attempt_201110302152_0003_m_000010_0 failed to report status for 607 seconds. Killing! Last 4KB Last 8KB All attempt_201110302152_0003_m_000010_1 task_201110302152_0003_m_000010 […]

¿Cómo pasar parámetros a la secuencia de comandos de Python en Hive?

El usuario de Hive puede transmitir tablas a través de un script para transformar esos datos: ADD FILE replace-nan-with-zeros.py; SELECT TRANSFORM (…) USING ‘python replace-nan-with-zeros.py’ AS (…) FROM some_table; Tengo un script de Python simple: #!/usr/bin/env python import sys kFirstColumns= 7 def main(argv): for line in sys.stdin: line = line.strip(); inputs = line.split(‘\t’) # replace […]

¿Cómo puedo saber cuántos mappers y reductores están funcionando?

Tengo una tarea que está diseñada para ejecutar docenas de trabajos de mapa / reducción. Algunos de ellos son intensivos en IO, otros son intensivos en mapas, otros son intensivos en reductores. Me gustaría poder monitorear la cantidad de asignadores y reductores actualmente en uso para que, cuando se libere un conjunto de asignadores, pueda […]

Python Hadoop se reproduce en Windows, Script no es una aplicación Win32 válida

Tengo un problema para ejecutar los archivos de mapreduce python en Hadoop utilizando Hadoop streaming.jar. Yo uso: Windows 10 64bit Python 3.6 y mi IDE es spyder 3.2.6, Hadoop 2.3.0 jdk1.8.0_161 Puedo obtener una respuesta mientras mi código maperducec está escrito en lenguaje java, pero mi problema es cuando quiero mezclar bibliotecas de python como […]

El byte del mapeador de transmisión de Hadoop no se está generando

Estoy ejecutando un trabajo de transmisión de Hadoop y las compensaciones de bytes no se generan como salida (claves) del asignador, como es de esperar también. El comando: $HADOOP_INSTALL/bin/hadoop \ jar $HADOOP_INSTALL/contrib/streaming/hadoop-streaming-$HADOOP_VERSION.jar \ -D stream.map.input.ignoreKey=false \ -inputformat org.apache.hadoop.mapred.TextInputFormat \ -file ./mapper.py \ -file ./reducer.py \ -mapper ./mapper.py \ -reducer ./reducer.py \ -input $INPUT_DIR \ -output […]

Chispa: cuántos ejecutores y núcleos se asignan a mi trabajo de chispa

La architecture de la chispa gira enteramente en torno al concepto de ejecutores y núcleos. Me gustaría ver prácticamente cuántos ejecutores y núcleos se ejecutan en mi clúster. Estaba tratando de usar el siguiente fragmento de código en mi aplicación, pero no tuve suerte. val conf = new SparkConf().setAppName(“ExecutorTestJob”) val sc = new SparkContext(conf) conf.get(“spark.executor.instances”) […]

RDD solo tiene el valor de la primera columna: Hbase, PySpark

Estamos leyendo una tabla de Hbase con Pyspark usando los siguientes comandos. from pyspark.sql.types import * host= port= keyConv = “org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter” valueConv = “org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter” cmdata_conf = {“hbase.zookeeper.property.clientPort”:port, “hbase.zookeeper.quorum”: host, “hbase.mapreduce.inputtable”: “CMData”, “hbase.mapreduce.scan.columns”: “info:Tenure info:Age”} cmdata_rdd = sc.newAPIHadoopRDD(“org.apache.hadoop.hbase.mapreduce.TableInputFormat”,”org.apache.hadoop.hbase.io.ImmutableBytesWritable”,”org.apache.hadoop.hbase.client.Result”,keyConverter=keyConv,valueConverter=valueConv,conf=cmdata_conf) output = cmdata_rdd.collect() output Estoy obteniendo el resultado de la siguiente manera. (Clave y Edad) [(u’123′, u’5′), (u’234′, […]

¿Cómo paso un parámetro a un trabajo de transmisión de Hadoop en Python?

Para un trabajo de transmisión por secuencias de Hadoop en Python, ¿cómo le paso un parámetro a, por ejemplo, el script reductor para que se comporte de forma diferente según el parámetro que se pasa? Entiendo que los trabajos de transmisión se llaman en el formato de: hadoop jar hadoop-streaming.jar -input -output -mapper mapper.py -reducer […]

¿Cómo se ejecuta Spark en la cuenta YARN para el uso de memoria de Python?

Después de leer la documentación, no entiendo cómo se ejecuta Spark en la cuenta YARN para el consumo de memoria de Python. ¿Cuenta para spark.executor.memory , spark.executor.memoryOverhead o dónde? En particular, tengo una aplicación PySpark con spark.executor.memory=25G , spark.executor.cores=4 y me encuentro con un contenedor frecuente eliminado por YARN por exceder los límites de memoria. […]

Lectura / escritura de archivos de hdfs usando python con subproceso, Pipe, Popen da error

Estoy tratando de leer (abrir) y escribir archivos en hdfs dentro de un script en python. Pero teniendo error. ¿Alguien puede decirme qué está mal aquí? Código (completo): sample.py #!/usr/bin/python from subprocess import Popen, PIPE print “Before Loop” cat = Popen([“hadoop”, “fs”, “-cat”, “./sample.txt”], stdout=PIPE) print “After Loop 1” put = Popen([“hadoop”, “fs”, “-put”, “-“, […]