Articles of mapreduce

Error de memoria insuficiente al leer el archivo csv en trozos

Estoy procesando un archivo csv que tiene un tamaño de 2.5 GB. La tabla de 2.5 GB se ve así: columns=[ka,kb_1,kb_2,timeofEvent,timeInterval] 0:’3M’ ‘2345’ ‘2345’ ‘2014-10-5′,3000 1:’3M’ ‘2958’ ‘2152’ ‘2015-3-22′,5000 2:’GE’ ‘2183’ ‘2183’ ‘2012-12-31′,515 3:’3M’ ‘2958’ ‘2958’ ‘2015-3-10′,395 4:’GE’ ‘2183’ ‘2285’ ‘2015-4-19′,1925 5:’GE’ ‘2598’ ‘2598’ ‘2015-3-17’,1915 Y quiero agruparme por ka y kb_1 para obtener el […]

¿Cuál es la mejor manera de contar visitantes únicos con Hadoop?

hey all, recién comenzando hadoop y curioso, cuál sería la mejor manera en mapreduce para contar visitantes únicos si sus archivos de registro fueran así … DATE siteID action username 05-05-2010 siteA pageview jim 05-05-2010 siteB pageview tom 05-05-2010 siteA pageview jim 05-05-2010 siteB pageview bob 05-05-2010 siteA pageview mike ¿Y para cada sitio que […]

¿Cuál es la manera más eficiente de hacer una reducción ordenada en PySpark?

Estoy analizando los registros de rendimiento a tiempo de los vuelos nacionales de EE. UU. A partir de 2015. Necesito agrupar por número de cola y almacenar una lista ordenada por fecha de todos los vuelos para cada número de cola en una base de datos, para que pueda ser recuperada por mi solicitud. No […]

Streaming o tarro personalizado en Hadoop

Estoy ejecutando un trabajo de transmisión en Hadoop (en la EMR de Amazon) con el asignador y el reductor escritos en Python. Quiero saber sobre las ganancias de velocidad que experimentaría si implementara el mismo mapeador y reductor en Java (o uso Pig). En particular, estoy buscando las experiencias de las personas en la migración […]

Python Hadoop Streaming Error “ERROR streaming.StreamJob: ¡El trabajo no tuvo éxito!” Y el seguimiento de la stack: ExitCodeException exitCode = 134

Estoy intentando ejecutar el script de Python en el clúster de Hadoop utilizando Hadoop Streaming para el análisis de sentimientos. El mismo script que estoy ejecutando en la máquina local que se está ejecutando correctamente y dando salida. para ejecutar en la máquina local utilizo este comando. $ cat /home/MB/analytics/Data/input/* | ./new_mapper.py y para ejecutar […]

¿Cómo obtener el nombre de archivo cuando se ejecuta el trabajo mapreduce en EC2?

Estoy aprendiendo mapreduce elástico y empecé con el ejemplo de Word Splitter que se proporciona en la Sección de tutoriales de Amazon (código que se muestra a continuación). El ejemplo produce un recuento de palabras para todas las palabras en todos los documentos de entrada proporcionados. Pero quiero obtener resultados para Word Counts por nombre […]

Map-Reduce / Hadoop ordenar por valor entero (usando MRJob)

Esta es una implementación de MRJob de una funcionalidad simple de clasificación de reducción de mapa. En beta.py : from mrjob.job import MRJob class Beta(MRJob): def mapper(self, _, line): “”” “”” l = line.split(‘ ‘) yield l[1], l[0] def reducer(self, key, val): yield key, [v for v in val][0] if __name__ == ‘__main__’: Beta.run() Lo […]

Generando archivos de salida separados en Hadoop Streaming

Al usar solo un asignador (un script de Python) y ningún reductor, ¿cómo puedo generar un archivo separado con la clave como nombre de archivo, para cada línea de salida, en lugar de tener archivos de salida largos?

Múltiples entradas con MRJob

Estoy tratando de aprender a usar la API Python de Yelp para MapReduce, MRJob. Su simple ejemplo de contador de palabras tiene sentido, pero tengo curiosidad por saber cómo se manejaría una aplicación que involucra múltiples entradas. Por ejemplo, en lugar de simplemente contar las palabras en un documento, multiplicar un vector por una matriz. […]

Hadoop Streaming: Mapper ‘envuelve’ un ejecutable binario

Tengo un canal que actualmente ejecuto en un gran grupo de computadoras de la universidad. Para fines de publicación, me gustaría convertirlo en formato mapreduce, de manera que cualquier persona pueda ejecutarlo utilizando un clúster de hadoop como los servicios web de Amazon (AWS). La canalización consiste actualmente en una serie de scripts de python […]