Articles of mapreduce

Python Hadoop se reproduce en Windows, Script no es una aplicación Win32 válida

Tengo un problema para ejecutar los archivos de mapreduce python en Hadoop utilizando Hadoop streaming.jar. Yo uso: Windows 10 64bit Python 3.6 y mi IDE es spyder 3.2.6, Hadoop 2.3.0 jdk1.8.0_161 Puedo obtener una respuesta mientras mi código maperducec está escrito en lenguaje java, pero mi problema es cuando quiero mezclar bibliotecas de python como […]

MRjob: ¿Puede un reductor realizar 2 operaciones?

Estoy intentando dar la probabilidad de que cada clave, el par de valores generado desde el asignador tenga. Entonces, digamos los rendimientos del mapeador: a, (r, 5) a, (e, 6) a, (w, 7) Necesito agregar 5 + 6 + 7 = 18 y luego encontrar las probabilidades 5/18, 6/18, 7/18 por lo que la salida […]

Cómo reducir en una lista de tuplas en python

Tengo una matriz y quiero contar la aparición de cada elemento en la matriz. He logrado usar una función de mapa para producir una lista de tuplas. def mapper(a): return (a, 1) r = list(map(lambda a: mapper(a), arr)); //output example: //(11817685, 1), (2014036792, 1), (2014047115, 1), (11817685, 1) Estoy esperando que la función de reducción […]

El byte del mapeador de transmisión de Hadoop no se está generando

Estoy ejecutando un trabajo de transmisión de Hadoop y las compensaciones de bytes no se generan como salida (claves) del asignador, como es de esperar también. El comando: $HADOOP_INSTALL/bin/hadoop \ jar $HADOOP_INSTALL/contrib/streaming/hadoop-streaming-$HADOOP_VERSION.jar \ -D stream.map.input.ignoreKey=false \ -inputformat org.apache.hadoop.mapred.TextInputFormat \ -file ./mapper.py \ -file ./reducer.py \ -mapper ./mapper.py \ -reducer ./reducer.py \ -input $INPUT_DIR \ -output […]

Error de memoria insuficiente al leer el archivo csv en trozos

Estoy procesando un archivo csv que tiene un tamaño de 2.5 GB. La tabla de 2.5 GB se ve así: columns=[ka,kb_1,kb_2,timeofEvent,timeInterval] 0:’3M’ ‘2345’ ‘2345’ ‘2014-10-5′,3000 1:’3M’ ‘2958’ ‘2152’ ‘2015-3-22′,5000 2:’GE’ ‘2183’ ‘2183’ ‘2012-12-31′,515 3:’3M’ ‘2958’ ‘2958’ ‘2015-3-10′,395 4:’GE’ ‘2183’ ‘2285’ ‘2015-4-19′,1925 5:’GE’ ‘2598’ ‘2598’ ‘2015-3-17’,1915 Y quiero agruparme por ka y kb_1 para obtener el […]

¿Cuál es la mejor manera de contar visitantes únicos con Hadoop?

hey all, recién comenzando hadoop y curioso, cuál sería la mejor manera en mapreduce para contar visitantes únicos si sus archivos de registro fueran así … DATE siteID action username 05-05-2010 siteA pageview jim 05-05-2010 siteB pageview tom 05-05-2010 siteA pageview jim 05-05-2010 siteB pageview bob 05-05-2010 siteA pageview mike ¿Y para cada sitio que […]

¿Cuál es la manera más eficiente de hacer una reducción ordenada en PySpark?

Estoy analizando los registros de rendimiento a tiempo de los vuelos nacionales de EE. UU. A partir de 2015. Necesito agrupar por número de cola y almacenar una lista ordenada por fecha de todos los vuelos para cada número de cola en una base de datos, para que pueda ser recuperada por mi solicitud. No […]

Streaming o tarro personalizado en Hadoop

Estoy ejecutando un trabajo de transmisión en Hadoop (en la EMR de Amazon) con el asignador y el reductor escritos en Python. Quiero saber sobre las ganancias de velocidad que experimentaría si implementara el mismo mapeador y reductor en Java (o uso Pig). En particular, estoy buscando las experiencias de las personas en la migración […]

Python Hadoop Streaming Error “ERROR streaming.StreamJob: ¡El trabajo no tuvo éxito!” Y el seguimiento de la stack: ExitCodeException exitCode = 134

Estoy intentando ejecutar el script de Python en el clúster de Hadoop utilizando Hadoop Streaming para el análisis de sentimientos. El mismo script que estoy ejecutando en la máquina local que se está ejecutando correctamente y dando salida. para ejecutar en la máquina local utilizo este comando. $ cat /home/MB/analytics/Data/input/* | ./new_mapper.py y para ejecutar […]

¿Cómo obtener el nombre de archivo cuando se ejecuta el trabajo mapreduce en EC2?

Estoy aprendiendo mapreduce elástico y empecé con el ejemplo de Word Splitter que se proporciona en la Sección de tutoriales de Amazon (código que se muestra a continuación). El ejemplo produce un recuento de palabras para todas las palabras en todos los documentos de entrada proporcionados. Pero quiero obtener resultados para Word Counts por nombre […]