Articles of hadoop

¿Cómo determinar específicamente la entrada para cada paso del mapa en MRJob?

Estoy trabajando en un trabajo de reducción de mapas, que consta de varios pasos. Usando mrjob cada paso recibe la salida del paso anterior. El problema es que no quiero que lo haga. Lo que quiero es extraer algo de información y utilizarla en el segundo paso en contra de todas las entradas, etc. ¿Es […]

La tarea de transmisión de Hadoop falló (no se realizó correctamente) en Python

Estoy tratando de ejecutar un trabajo Map-Reduce en Hadoop Streaming con scripts de Python y obtengo los mismos errores que el error de Hadoop Streaming Job en python, pero esas soluciones no me funcionaron. Mis scripts funcionan bien cuando ejecuto “cat sample.txt | ./p1mapper.py | sort | ./p1reducer.py” Pero cuando corro lo siguiente: ./bin/hadoop jar […]

Hadoop Texttable no separable

¿Hay alguna forma de enviar un archivo completo a un asignador sin dividirlo? He leído esto pero me pregunto si hay otra forma de hacer lo mismo sin tener que generar un archivo intermedio. Idealmente, me gustaría una opción existente en la línea de comandos para Hadoop. Estoy utilizando la función de streaming por secuencias […]

¿Cómo asignar y usar encabezados de columna en Spark?

Estoy leyendo un conjunto de datos como abajo. f = sc.textFile(“s3://test/abc.csv”) Mi archivo contiene más de 50 campos y quiero asignar encabezados de columna para que cada uno de los campos haga referencia más adelante en mi script. ¿Cómo hago eso en PySpark? ¿Es DataFrame la forma de ir aquí? PS – Newbie to Spark.

Usando archivos en Hadoop Streaming con Python

Soy completamente nuevo en Hadoop y MapReduce y estoy tratando de abrirme camino a través de él. Estoy tratando de desarrollar una aplicación mapreduce en python, en la que uso datos de 2 archivos .CSV. Solo estoy leyendo los dos archivos en el asignador y luego imprimo el par de valores clave de los archivos […]

Lectura y escritura de tablas de hives con chispa después de la agregación.

Tenemos un almacén de hives, y queríamos usar spark para varias tareas (principalmente clasificación). A veces escribe los resultados de nuevo como una tabla de hive. Por ejemplo, escribimos la siguiente función de Python para encontrar la sum total de la columna original_table dos, agrupada por la columna original_table uno. La función funciona, pero nos […]

El diccionario de Python contiene valores codificados

Tengo un dataframe de pandas oParameterData que he creado en Hadoop utilizando la conexión ODBC de Hive. Lo estoy usando para rellenar un diccionario de Python llamado oParameter import pyodbc import pandas oConnexionString = ‘Driver={ClouderaHive};[…]’ oConnexion = pyodbc.connect(oConnexionString, autocommit=True) oConnexion.setencoding(encoding=’utf-8′) oQueryParameter = “select * from my_db.my_table;” oParameterData = pandas.read_sql(oQueryParameter, oConnexion) oCursor = oConnexion.cursor() for oRow […]

Instalación de PySpark – No se pudo encontrar el directorio de Spark jars

Estoy teniendo muchos problemas con Spark en Windows . Así que explicando el error: Hay una gran cantidad de tutoriales para instalar y resolver muchos problemas, sin embargo, lo he estado intentando durante horas y todavía no puedo hacer que funcione. Tengo Java 8 , que tengo en System Path C:\>java -version java version “1.8.0_131” […]

Spark java.lang.VerifyError

Recibo el siguiente error cuando bash llamar, uso Python Client para la chispa. lines = sc.textFile(hdfs://…) lines.take(10) Sospecho que las versiones de chispa y hadoop podrían no ser compatibles. Aquí está el resultado de la versión hadoop: Hadoop 2.5.2 Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r cc72e9b000545b86b75a61f4835eb86d57bfafc0 Comstackdo por jenkins en 2014-11-14T23: 45Z Compiled with protoc 2.5.0 Desde el […]

Ejecutando el tarro de Hadoop usando Luigi python

Necesito ejecutar un trabajo en jado de Hadoop usando Luigi de python. Busqué y encontré ejemplos de escritura de mapeador y reductor en Luigi pero nada para ejecutar directamente un tarro de Hadoop. Necesito ejecutar un flask de Hadoop comstackdo directamente. ¿Cómo puedo hacerlo?