Articles of mapreduce

Hadoop / Elastic Map Reducir con ejecutable binario?

Estoy escribiendo y distribuyendo una aplicación de procesamiento de imágenes que utiliza hadoop streaming, python, matlab y elastic map map. He comstackdo un ejecutable binario de mi código matlab usando el comstackdor matlab. Me pregunto cómo puedo incorporar esto en mi flujo de trabajo para que el binario sea parte del procesamiento en el mapa […]

CouchDB – filtra el último registro por instancia registrada de una lista

Podría usar alguna ayuda para filtrar valores distintos desde una vista couchdb. Tengo una base de datos que almacena registros con información sobre computadoras. Periódicamente, los registros nuevos para una computadora se escriben en la base de datos. Un poco simplificado, almaceno entradas como estas: { “name”: “NAS”, “os”: “Linux”, “timestamp”: “2011-03-03T16:26:39Z”, } { “name”: […]

mrjob: ¿cómo sabe el ejemplo automáticamente cómo encontrar líneas en un archivo de texto?

Estoy tratando de entender mejor el ejemplo para mrjob from mrjob.job import MRJob class MRWordFrequencyCount(MRJob): def mapper(self, _, line): yield “chars”, len(line) yield “words”, len(line.split()) yield “lines”, 1 def reducer(self, key, values): yield key, sum(values) if __name__ == ‘__main__’: MRWordFrequencyCount.run() Lo corro por $ python word_count.py my_file.txt y funciona como se esperaba, pero no entiendo […]

MapReduce, Python y NetworkX

He implementado una función de caminata aleatoria no ponderada para un gráfico que construí en Python usando NetworkX. A continuación se muestra un fragmento de mi progtwig que se ocupa de la caminata aleatoria. En otra parte de mi progtwig, tengo un método que crea el gráfico, y tengo un método que simula varios métodos […]

¿Cómo determinar específicamente la entrada para cada paso del mapa en MRJob?

Estoy trabajando en un trabajo de reducción de mapas, que consta de varios pasos. Usando mrjob cada paso recibe la salida del paso anterior. El problema es que no quiero que lo haga. Lo que quiero es extraer algo de información y utilizarla en el segundo paso en contra de todas las entradas, etc. ¿Es […]

La tarea de transmisión de Hadoop falló (no se realizó correctamente) en Python

Estoy tratando de ejecutar un trabajo Map-Reduce en Hadoop Streaming con scripts de Python y obtengo los mismos errores que el error de Hadoop Streaming Job en python, pero esas soluciones no me funcionaron. Mis scripts funcionan bien cuando ejecuto “cat sample.txt | ./p1mapper.py | sort | ./p1reducer.py” Pero cuando corro lo siguiente: ./bin/hadoop jar […]

¿Cómo se especifica el archivo de entrada para un corredor de Python?

Estoy escribiendo un script externo para ejecutar un trabajo mapreduce a través del módulo mrjob de Python en mi computadora portátil (no en Amazon Elastic Compute Cloud ni en ningún grupo grande). Leí en la documentación de mrjob que debería usar MRJob.make_runner() para ejecutar un trabajo mapreduce desde una secuencia de comandos de python separada […]

¿Cómo unirse a las colecciones de MongoDB en Python?

¿Cómo unir (en el sentido de INNER JOIN desde SQL) dos colecciones MongoDB en Python? ¿Necesito usar el código nativo de map / reduce javascript o hacer esto en PyMongo? ¿Cómo resolver esto con menos código?

Usando archivos en Hadoop Streaming con Python

Soy completamente nuevo en Hadoop y MapReduce y estoy tratando de abrirme camino a través de él. Estoy tratando de desarrollar una aplicación mapreduce en python, en la que uso datos de 2 archivos .CSV. Solo estoy leyendo los dos archivos en el asignador y luego imprimo el par de valores clave de los archivos […]

Ejemplo de contador simple usando mapreduce en Google App Engine

Estoy algo confundido con el estado actual del soporte de mapreduce en GAE. De acuerdo con los documentos http://code.google.com/p/appengine-mapreduce/ reduce la fase todavía no se admite, pero en la descripción de la sesión de I / O 2011 ( http://www.youtube.com / watch? v = EIxelKcyCC0 ) está escrito “Ahora es posible ejecutar todos los trabajos […]