Articles of streaming

Cómo procesar un flujo YAML en Python

Tengo una aplicación de línea de comandos que genera continuamente datos YAML en la forma: – col0: datum0 col1: datum1 col2: datum2 – col0: datum0 col1: datum1 col2: datum2 … Lo hace por toda la eternidad. Me gustaría escribir un script de Python que lea continuamente cada uno de estos registros. La biblioteca PyYAML parece […]

Streaming o tarro personalizado en Hadoop

Estoy ejecutando un trabajo de transmisión en Hadoop (en la EMR de Amazon) con el asignador y el reductor escritos en Python. Quiero saber sobre las ganancias de velocidad que experimentaría si implementara el mismo mapeador y reductor en Java (o uso Pig). En particular, estoy buscando las experiencias de las personas en la migración […]

Generando archivos de salida separados en Hadoop Streaming

Al usar solo un asignador (un script de Python) y ningún reductor, ¿cómo puedo generar un archivo separado con la clave como nombre de archivo, para cada línea de salida, en lugar de tener archivos de salida largos?

Leer marcos de RTSP Stream en Python

Recientemente instalé una cámara Raspberry Pi y estoy transmitiendo los cuadros a través de RTSP. Si bien puede que no sea completamente necesario, este es el comando que estoy usando para transmitir el video: raspivid -o – -t 0 -w 1280 -h 800 |cvlc -vvv stream:///dev/stdin –sout ‘#rtp{sdp=rtsp://:8554/output.h264}’ :demux=h264 Esto transmite el video perfectamente. Lo […]

Obtenga el nombre del archivo de entrada en el progtwig hadoop de transmisión

Puedo encontrar el nombre si el archivo de entrada en una clase de asignador usando FileSplit al escribir el progtwig en Java. ¿Hay una forma correspondiente de hacer esto cuando escribo un progtwig en Python (usando streaming?) Encontré lo siguiente en el documento de transmisión de hadoop en apache: Ver Parámetros Configurados. Durante la ejecución […]

Hadoop Streaming: Mapper ‘envuelve’ un ejecutable binario

Tengo un canal que actualmente ejecuto en un gran grupo de computadoras de la universidad. Para fines de publicación, me gustaría convertirlo en formato mapreduce, de manera que cualquier persona pueda ejecutarlo utilizando un clúster de hadoop como los servicios web de Amazon (AWS). La canalización consiste actualmente en una serie de scripts de python […]

¿Usando múltiples entradas de mapeador en un trabajo de transmisión en hadoop?

En java yo usaría: MultipleInputs.addInputPath (conf, ruta, inputFormatClass, mapperClass) para agregar múltiples entradas con un mapeador diferente para cada uno. Ahora estoy usando python para escribir un trabajo de transmisión en hadoop, ¿se puede hacer un trabajo similar?

Streaming de un archivo CSV en Django

Estoy intentando transmitir un archivo csv como descarga de archivos adjuntos. Los archivos CSV están llegando a tener un tamaño de 4 MB o más, y necesito una forma para que el usuario descargue los archivos de forma activa sin esperar a que todos los datos se creen y se ingresen primero en la memoria. […]

¿Cómo enviar la imagen generada por PIL al navegador?

Estoy usando el matraz para mi aplicación. Me gustaría enviar una imagen (generada dinámicamente por PIL) al cliente sin guardar en el disco. Alguna idea de cómo hacer esto ?

Streaming Hadoop – No se puede encontrar el error de archivo

Estoy tratando de ejecutar un trabajo en python hadoop–streaming. bin/hadoop jar contrib/streaming/hadoop-0.20.1-streaming.jar -D stream.non.zero.exit.is.failure=true -input /ixml -output /oxml -mapper scripts/mapper.py -file scripts/mapper.py -inputreader “StreamXmlRecordReader,begin=channel,end=/channel” -jobconf mapred.reduce.tasks=0 Me aseguré de que mapper.py tenga todos los permisos. Se equivoca diciendo Caused by: java.io.IOException: Cannot run program “mapper.py”: error=2, No such file or directory at java.lang.ProcessBuilder.start(ProcessBuilder.java:460) at org.apache.hadoop.streaming.PipeMapRed.configure(PipeMapRed.java:214) […]