Articles of mapreduce

Usando archivos en Hadoop Streaming con Python

Soy completamente nuevo en Hadoop y MapReduce y estoy tratando de abrirme camino a través de él. Estoy tratando de desarrollar una aplicación mapreduce en python, en la que uso datos de 2 archivos .CSV. Solo estoy leyendo los dos archivos en el asignador y luego imprimo el par de valores clave de los archivos […]

Ejemplo de contador simple usando mapreduce en Google App Engine

Estoy algo confundido con el estado actual del soporte de mapreduce en GAE. De acuerdo con los documentos http://code.google.com/p/appengine-mapreduce/ reduce la fase todavía no se admite, pero en la descripción de la sesión de I / O 2011 ( http://www.youtube.com / watch? v = EIxelKcyCC0 ) está escrito “Ahora es posible ejecutar todos los trabajos […]

¿Cómo importar un módulo personalizado en un trabajo MapReduce?

Tengo un trabajo MapReduce definido en main.py , que importa el módulo lib de lib.py Utilizo Hadoop Streaming para enviar este trabajo al clúster de Hadoop de la siguiente manera: hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -files lib.py,main.py -mapper “./main.py map” -reducer “./main.py reduce” -input input -output output A mi entender, esto debería poner main.py y lib.py en […]

MapReduce en PyMongo

Mi colección de Mongo: Impressions tiene documentos en el siguiente formato: – { _uid: 10, “impressions”: [ { “pos”: 6, “id”: 123, “service”: “furniture” }, { “pos”: 0, “id”: 128, “service”: “electronics” }, { “pos”: 2, “id”: 127, “service”: “furniture” }, { “pos”: 2, “id”: 125, “service”: “electronics” }, { “pos”: 10, “id”: 124, “service”: […]

Hadoop y Python: deshabilitar la clasificación

Me he dado cuenta de que cuando ejecuto Hadoop con código Python, el mapeador o el reductor (no estoy seguro de cuál) está clasificando mi salida antes de que sea impresa por reducer.py . Actualmente parece estar ordenado alfanuméricamente. Me pregunto si hay una manera de deshabilitar completamente esto. Me gustaría que la salida del […]

hadoop-streaming: reductor en estado pendiente, ¿no arranca?

Tengo un trabajo de reducción de mapa que se estaba ejecutando bien hasta que comencé a ver algunas tareas de mapa fallidas como attempt_201110302152_0003_m_000010_0 task_201110302152_0003_m_000010 worker1 FAILED Task attempt_201110302152_0003_m_000010_0 failed to report status for 602 seconds. Killing! ——- Task attempt_201110302152_0003_m_000010_0 failed to report status for 607 seconds. Killing! Last 4KB Last 8KB All attempt_201110302152_0003_m_000010_1 task_201110302152_0003_m_000010 […]

¿Cómo puedo saber cuántos mappers y reductores están funcionando?

Tengo una tarea que está diseñada para ejecutar docenas de trabajos de mapa / reducción. Algunos de ellos son intensivos en IO, otros son intensivos en mapas, otros son intensivos en reductores. Me gustaría poder monitorear la cantidad de asignadores y reductores actualmente en uso para que, cuando se libere un conjunto de asignadores, pueda […]

Python Hadoop se reproduce en Windows, Script no es una aplicación Win32 válida

Tengo un problema para ejecutar los archivos de mapreduce python en Hadoop utilizando Hadoop streaming.jar. Yo uso: Windows 10 64bit Python 3.6 y mi IDE es spyder 3.2.6, Hadoop 2.3.0 jdk1.8.0_161 Puedo obtener una respuesta mientras mi código maperducec está escrito en lenguaje java, pero mi problema es cuando quiero mezclar bibliotecas de python como […]

MRjob: ¿Puede un reductor realizar 2 operaciones?

Estoy intentando dar la probabilidad de que cada clave, el par de valores generado desde el asignador tenga. Entonces, digamos los rendimientos del mapeador: a, (r, 5) a, (e, 6) a, (w, 7) Necesito agregar 5 + 6 + 7 = 18 y luego encontrar las probabilidades 5/18, 6/18, 7/18 por lo que la salida […]

Cómo reducir en una lista de tuplas en python

Tengo una matriz y quiero contar la aparición de cada elemento en la matriz. He logrado usar una función de mapa para producir una lista de tuplas. def mapper(a): return (a, 1) r = list(map(lambda a: mapper(a), arr)); //output example: //(11817685, 1), (2014036792, 1), (2014047115, 1), (11817685, 1) Estoy esperando que la función de reducción […]