Articles of mapreduce

¿Los resultados de MapReduce parecen limitados a 100?

Estoy jugando con Map Reduce en MongoDB y python y me he topado con una extraña limitación. Solo estoy tratando de contar el número de registros de “libros”. Funciona cuando hay menos de 100 registros, pero cuando supera los 100 registros, el conteo se reinicia por algún motivo. Aquí está mi código de MR y […]

Cómo enviar el trabajo de hadoop MR de forma remota en el clúster de Amazon EMR

Situación actual: tengo un cluster EMR. En el nodo maestro: tengo un progtwig en Python que realiza una llamada de subproceso y ejecuta el script que contiene la siguiente línea. El subproceso activa el trabajo de MR y escribe la salida en HDFS que uso más adelante. /usr/bin/hadoop jar test.jar testing.jobs.TestFeatureJob /in/f1.txt /in/f2.txt Que quiero […]

Ejecución de un trabajo utilizando hadoop streaming y mrjob: PipeMapRed.waitOutputThreads (): el subproceso falló con el código 1

Hola, soy bastante nuevo en el mundo de Big Data. Encontré este tutorial en http://musicmachinery.com/2011/09/04/how-to-process-a-million-songs-in-20-minutes/ Describe en detalle cómo ejecutar el trabajo MapReduce usando mrjob localmente y en Elastic Map Reduce. Bueno, estoy tratando de ejecutar esto en mi propio usuario de Hadoop. Ejecuté el trabajo usando el siguiente comando. python density.py tiny.dat -r hadoop […]

Streaming Hadoop – No se puede encontrar el error de archivo

Estoy tratando de ejecutar un trabajo en python hadoop–streaming. bin/hadoop jar contrib/streaming/hadoop-0.20.1-streaming.jar -D stream.non.zero.exit.is.failure=true -input /ixml -output /oxml -mapper scripts/mapper.py -file scripts/mapper.py -inputreader “StreamXmlRecordReader,begin=channel,end=/channel” -jobconf mapred.reduce.tasks=0 Me aseguré de que mapper.py tenga todos los permisos. Se equivoca diciendo Caused by: java.io.IOException: Cannot run program “mapper.py”: error=2, No such file or directory at java.lang.ProcessBuilder.start(ProcessBuilder.java:460) at org.apache.hadoop.streaming.PipeMapRed.configure(PipeMapRed.java:214) […]

streaming hadoop: ¿cómo ver los registros de aplicaciones?

Puedo ver todos los registros de hadoop en mi /usr/local/hadoop/logs ruta pero ¿dónde puedo ver los registros de nivel de aplicación? por ejemplo : mapper.py import logging def main(): logging.info(“starting map task now”) // — do some task — // print statement reducer.py import logging def main(): for line in sys.stdin: logging.info(“received input to reducer […]

Tener dificultad en mapreduce para entender.

He visto el siguiente enlace que es para comenzar mapreduce con python http://code.google.com/p/appengine-mapreduce/wiki/GettingStartedInPython Pero todavía no puedo entender cómo está funcionando. Estoy ejecutando el código siguiente pero no puedo entender qué está sucediendo exactamente. mapreduce.yaml mapreduce: – name: Testmapper mapper: input_reader: mapreduce.input_readers.DatastoreInputReader handler: main.process params: – name: entity_kind default: main.userDetail mapreduce / main.py some code […]

Error de trabajo de transmisión de Hadoop en Python

De esta guía , he ejecutado con éxito el ejercicio de muestra. Pero al ejecutar mi trabajo mapreduce, recibo el siguiente error ERROR streaming.StreamJob: Job not Successful! 10/12/16 17:13:38 INFO streaming.StreamJob: killJob… Streaming Job Failed! Error del archivo de registro java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2 at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:311) at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:545) at org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:132) at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:57) […]

Reduzca un par clave-valor en un par clave-lista con Apache Spark

Estoy escribiendo una aplicación Spark y quiero combinar un conjunto de pares de clave-valor (K, V1), (K, V2), …, (K, Vn) en una pareja de clave-multivalor (K, [V1, V2, …, Vn]) . Siento que debería poder hacer esto usando la función reduceByKey con algo del sabor: My_KMV = My_KV.reduce(lambda a, b: a.append([b])) El error que […]

Encadenar múltiples tareas de mapreduce en streaming de Hadoop

Estoy en el escenario donde tengo dos trabajos mapreduce. Me siento más cómodo con python y planeo usarlo para escribir scripts mapreduce y usar el streaming de hadoop para el mismo. ¿Hay alguna opción para encadenar los trabajos que siguen a la forma cuando se utiliza el streaming de hadoop? Mapa1 -> Reducir1 -> Mapa2 […]

¿IPython.parallel no usa multinúcleo?

Estoy experimentando con IPython.parallel y solo quiero lanzar varios comandos de shell en diferentes motores. Tengo el siguiente cuaderno: Celda 0: from IPython.parallel import Client client = Client() print len(client) 5 Y ejecuta los comandos: Celda 1: %%px –targets 0 –noblock !python server.py Celda 2: %%px –targets 1 –noblock !python mincemeat.py 127.0.0.1 Celda 3: %%px […]