Articles of hadoop

transmisión de hadoop: cómo unir internamente dos archivos de diferencias con python

Quiero encontrar las mejores visitas a la página del sitio web según el grupo de edad del usuario entre 18 y 25. Tengo dos archivos, uno contiene nombre de usuario, edad y otro archivo contiene nombre de usuario, nombre del sitio web. Ejemplos: usuarios.txt John, 22 pages.txt John, google.com He escrito lo siguiente en python, […]

streaming hadoop: importando módulos en EMR

Esta pregunta anterior abordó cómo importar módulos como nltk para hadoop streaming. Los pasos descritos fueron: zip -r nltkandyaml.zip nltk yaml mv ntlkandyaml.zip /path/to/where/your/mapper/will/be/nltkandyaml.mod Ahora puede importar el módulo nltk para usarlo en su script de Python: importar zipimport importer = zipimport.zipimporter(‘nltkandyaml.mod’) yaml = importer.load_module(‘yaml’) nltk = importer.load_module(‘nltk’) Tengo un trabajo que quiero ejecutar en […]

Transmitir datos en hdfs directamente sin copiar

Estoy buscando diferentes opciones a través de las cuales puedo escribir datos directamente en hdfs usando python sin almacenar en el nodo local y luego usar copyfromlocal. Me gustaría usar el archivo hdfs similar al archivo local y usar el método de escritura con la línea como argumento, algo de lo siguiente: hdfs_file = hdfs.create(“file_tmp”) […]

Problemas en paquetes python en nodos de sistemas distribuidos hadoop

Yo uso python para hacer streaming hadoop. Utilizamos un sistema distribuido de transmisión hadoop de AWS que tiene un nodo maestro y cuatro nodos esclavos. Si necesito instalar un paquete en Python, necesito instalar el paquete en cada nodo del sistema para que funcione. Pero en mis casos, incluso después de instalar el paquete python […]

Obtenga una lista de nombres de archivos de HDFS usando python

Hadoop noob aquí. He buscado algunos tutoriales sobre cómo comenzar con hadoop y python sin mucho éxito. No necesito hacer ningún trabajo con asignadores y reductores todavía, pero es más un problema de acceso. Como parte del clúster de Hadoop, hay un montón de archivos .dat en el HDFS. Para acceder a esos archivos en […]

MapReduce, Python y NetworkX

He implementado una función de caminata aleatoria no ponderada para un gráfico que construí en Python usando NetworkX. A continuación se muestra un fragmento de mi progtwig que se ocupa de la caminata aleatoria. En otra parte de mi progtwig, tengo un método que crea el gráfico, y tengo un método que simula varios métodos […]

¿Cómo determinar específicamente la entrada para cada paso del mapa en MRJob?

Estoy trabajando en un trabajo de reducción de mapas, que consta de varios pasos. Usando mrjob cada paso recibe la salida del paso anterior. El problema es que no quiero que lo haga. Lo que quiero es extraer algo de información y utilizarla en el segundo paso en contra de todas las entradas, etc. ¿Es […]

La tarea de transmisión de Hadoop falló (no se realizó correctamente) en Python

Estoy tratando de ejecutar un trabajo Map-Reduce en Hadoop Streaming con scripts de Python y obtengo los mismos errores que el error de Hadoop Streaming Job en python, pero esas soluciones no me funcionaron. Mis scripts funcionan bien cuando ejecuto “cat sample.txt | ./p1mapper.py | sort | ./p1reducer.py” Pero cuando corro lo siguiente: ./bin/hadoop jar […]

Hadoop Texttable no separable

¿Hay alguna forma de enviar un archivo completo a un asignador sin dividirlo? He leído esto pero me pregunto si hay otra forma de hacer lo mismo sin tener que generar un archivo intermedio. Idealmente, me gustaría una opción existente en la línea de comandos para Hadoop. Estoy utilizando la función de streaming por secuencias […]

¿Cómo asignar y usar encabezados de columna en Spark?

Estoy leyendo un conjunto de datos como abajo. f = sc.textFile(“s3://test/abc.csv”) Mi archivo contiene más de 50 campos y quiero asignar encabezados de columna para que cada uno de los campos haga referencia más adelante en mi script. ¿Cómo hago eso en PySpark? ¿Es DataFrame la forma de ir aquí? PS – Newbie to Spark.