Articles of hadoop

¿Cómo paso un parámetro a un trabajo de transmisión de Hadoop en Python?

Para un trabajo de transmisión por secuencias de Hadoop en Python, ¿cómo le paso un parámetro a, por ejemplo, el script reductor para que se comporte de forma diferente según el parámetro que se pasa? Entiendo que los trabajos de transmisión se llaman en el formato de: hadoop jar hadoop-streaming.jar -input -output -mapper mapper.py -reducer […]

¿Cómo se ejecuta Spark en la cuenta YARN para el uso de memoria de Python?

Después de leer la documentación, no entiendo cómo se ejecuta Spark en la cuenta YARN para el consumo de memoria de Python. ¿Cuenta para spark.executor.memory , spark.executor.memoryOverhead o dónde? En particular, tengo una aplicación PySpark con spark.executor.memory=25G , spark.executor.cores=4 y me encuentro con un contenedor frecuente eliminado por YARN por exceder los límites de memoria. […]

Lectura / escritura de archivos de hdfs usando python con subproceso, Pipe, Popen da error

Estoy tratando de leer (abrir) y escribir archivos en hdfs dentro de un script en python. Pero teniendo error. ¿Alguien puede decirme qué está mal aquí? Código (completo): sample.py #!/usr/bin/python from subprocess import Popen, PIPE print “Before Loop” cat = Popen([“hadoop”, “fs”, “-cat”, “./sample.txt”], stdout=PIPE) print “After Loop 1” put = Popen([“hadoop”, “fs”, “-put”, “-“, […]

¿Cuál es la mejor manera de contar visitantes únicos con Hadoop?

hey all, recién comenzando hadoop y curioso, cuál sería la mejor manera en mapreduce para contar visitantes únicos si sus archivos de registro fueran así … DATE siteID action username 05-05-2010 siteA pageview jim 05-05-2010 siteB pageview tom 05-05-2010 siteA pageview jim 05-05-2010 siteB pageview bob 05-05-2010 siteA pageview mike ¿Y para cada sitio que […]

Streaming o tarro personalizado en Hadoop

Estoy ejecutando un trabajo de transmisión en Hadoop (en la EMR de Amazon) con el asignador y el reductor escritos en Python. Quiero saber sobre las ganancias de velocidad que experimentaría si implementara el mismo mapeador y reductor en Java (o uso Pig). En particular, estoy buscando las experiencias de las personas en la migración […]

Pyspark –py-files no funciona

Uso esto como el documento sugiere http://spark.apache.org/docs/1.1.1/submitting-applications.html Spsark versión 1.1.0 ./spark/bin/spark-submit –py-files /home/hadoop/loganalysis/parser-src.zip \ /home/hadoop/loganalysis/ship-test.py y conf en codigo: conf = (SparkConf() .setMaster(“yarn-client”) .setAppName(“LogAnalysis”) .set(“spark.executor.memory”, “1g”) .set(“spark.executor.cores”, “4”) .set(“spark.executor.num”, “2”) .set(“spark.driver.memory”, “4g”) .set(“spark.kryoserializer.buffer.mb”, “128”)) y nodo esclavo se quejan de ImportError 14/12/25 05:09:53 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, ip-172-31-10-8.cn-north-1.compute.internal): org.apache.spark.api.python.PythonException: […]

Python Hadoop Streaming Error “ERROR streaming.StreamJob: ¡El trabajo no tuvo éxito!” Y el seguimiento de la stack: ExitCodeException exitCode = 134

Estoy intentando ejecutar el script de Python en el clúster de Hadoop utilizando Hadoop Streaming para el análisis de sentimientos. El mismo script que estoy ejecutando en la máquina local que se está ejecutando correctamente y dando salida. para ejecutar en la máquina local utilizo este comando. $ cat /home/MB/analytics/Data/input/* | ./new_mapper.py y para ejecutar […]

Map-Reduce / Hadoop ordenar por valor entero (usando MRJob)

Esta es una implementación de MRJob de una funcionalidad simple de clasificación de reducción de mapa. En beta.py : from mrjob.job import MRJob class Beta(MRJob): def mapper(self, _, line): “”” “”” l = line.split(‘ ‘) yield l[1], l[0] def reducer(self, key, val): yield key, [v for v in val][0] if __name__ == ‘__main__’: Beta.run() Lo […]

pydoop vs hadoopy – hadoop python client

Mientras buscaba el cliente de Python para Hadoop, encontré dos módulos pydoop y hadoopy. Parece que ambos son lo suficientemente buenos para trabajar, pero no están seguros de cuál tiene más ventajas que el otro para instalar una.

Cómo acceder a la hive remota usando pyhive

Use este enlace para intentar conectarse a una hive remota. A continuación se muestra el código utilizado. El mensaje de error recibido también se da a continuación. ¿Cómo acceder a Hive a través de Python? Código from pyhive import hive conn = hive.Connection(host=”10.111.22.11″, port=10000, username=”user1″ ,database=”default”) Mensaje de error Could not connect to any of […]