Articles of mapreduce

MapReduce en PyMongo

Mi colección de Mongo: Impressions tiene documentos en el siguiente formato: – { _uid: 10, “impressions”: [ { “pos”: 6, “id”: 123, “service”: “furniture” }, { “pos”: 0, “id”: 128, “service”: “electronics” }, { “pos”: 2, “id”: 127, “service”: “furniture” }, { “pos”: 2, “id”: 125, “service”: “electronics” }, { “pos”: 10, “id”: 124, “service”: […]

Hadoop y Python: deshabilitar la clasificación

Me he dado cuenta de que cuando ejecuto Hadoop con código Python, el mapeador o el reductor (no estoy seguro de cuál) está clasificando mi salida antes de que sea impresa por reducer.py . Actualmente parece estar ordenado alfanuméricamente. Me pregunto si hay una manera de deshabilitar completamente esto. Me gustaría que la salida del […]

hadoop-streaming: reductor en estado pendiente, ¿no arranca?

Tengo un trabajo de reducción de mapa que se estaba ejecutando bien hasta que comencé a ver algunas tareas de mapa fallidas como attempt_201110302152_0003_m_000010_0 task_201110302152_0003_m_000010 worker1 FAILED Task attempt_201110302152_0003_m_000010_0 failed to report status for 602 seconds. Killing! ——- Task attempt_201110302152_0003_m_000010_0 failed to report status for 607 seconds. Killing! Last 4KB Last 8KB All attempt_201110302152_0003_m_000010_1 task_201110302152_0003_m_000010 […]

¿Cómo puedo saber cuántos mappers y reductores están funcionando?

Tengo una tarea que está diseñada para ejecutar docenas de trabajos de mapa / reducción. Algunos de ellos son intensivos en IO, otros son intensivos en mapas, otros son intensivos en reductores. Me gustaría poder monitorear la cantidad de asignadores y reductores actualmente en uso para que, cuando se libere un conjunto de asignadores, pueda […]

Python Hadoop se reproduce en Windows, Script no es una aplicación Win32 válida

Tengo un problema para ejecutar los archivos de mapreduce python en Hadoop utilizando Hadoop streaming.jar. Yo uso: Windows 10 64bit Python 3.6 y mi IDE es spyder 3.2.6, Hadoop 2.3.0 jdk1.8.0_161 Puedo obtener una respuesta mientras mi código maperducec está escrito en lenguaje java, pero mi problema es cuando quiero mezclar bibliotecas de python como […]

MRjob: ¿Puede un reductor realizar 2 operaciones?

Estoy intentando dar la probabilidad de que cada clave, el par de valores generado desde el asignador tenga. Entonces, digamos los rendimientos del mapeador: a, (r, 5) a, (e, 6) a, (w, 7) Necesito agregar 5 + 6 + 7 = 18 y luego encontrar las probabilidades 5/18, 6/18, 7/18 por lo que la salida […]

Cómo reducir en una lista de tuplas en python

Tengo una matriz y quiero contar la aparición de cada elemento en la matriz. He logrado usar una función de mapa para producir una lista de tuplas. def mapper(a): return (a, 1) r = list(map(lambda a: mapper(a), arr)); //output example: //(11817685, 1), (2014036792, 1), (2014047115, 1), (11817685, 1) Estoy esperando que la función de reducción […]

El byte del mapeador de transmisión de Hadoop no se está generando

Estoy ejecutando un trabajo de transmisión de Hadoop y las compensaciones de bytes no se generan como salida (claves) del asignador, como es de esperar también. El comando: $HADOOP_INSTALL/bin/hadoop \ jar $HADOOP_INSTALL/contrib/streaming/hadoop-streaming-$HADOOP_VERSION.jar \ -D stream.map.input.ignoreKey=false \ -inputformat org.apache.hadoop.mapred.TextInputFormat \ -file ./mapper.py \ -file ./reducer.py \ -mapper ./mapper.py \ -reducer ./reducer.py \ -input $INPUT_DIR \ -output […]

Error de memoria insuficiente al leer el archivo csv en trozos

Estoy procesando un archivo csv que tiene un tamaño de 2.5 GB. La tabla de 2.5 GB se ve así: columns=[ka,kb_1,kb_2,timeofEvent,timeInterval] 0:’3M’ ‘2345’ ‘2345’ ‘2014-10-5′,3000 1:’3M’ ‘2958’ ‘2152’ ‘2015-3-22′,5000 2:’GE’ ‘2183’ ‘2183’ ‘2012-12-31′,515 3:’3M’ ‘2958’ ‘2958’ ‘2015-3-10′,395 4:’GE’ ‘2183’ ‘2285’ ‘2015-4-19′,1925 5:’GE’ ‘2598’ ‘2598’ ‘2015-3-17’,1915 Y quiero agruparme por ka y kb_1 para obtener el […]

¿Cuál es la mejor manera de contar visitantes únicos con Hadoop?

hey all, recién comenzando hadoop y curioso, cuál sería la mejor manera en mapreduce para contar visitantes únicos si sus archivos de registro fueran así … DATE siteID action username 05-05-2010 siteA pageview jim 05-05-2010 siteB pageview tom 05-05-2010 siteA pageview jim 05-05-2010 siteB pageview bob 05-05-2010 siteA pageview mike ¿Y para cada sitio que […]