Articles of hadoop

El diccionario de Python contiene valores codificados

Tengo un dataframe de pandas oParameterData que he creado en Hadoop utilizando la conexión ODBC de Hive. Lo estoy usando para rellenar un diccionario de Python llamado oParameter import pyodbc import pandas oConnexionString = ‘Driver={ClouderaHive};[…]’ oConnexion = pyodbc.connect(oConnexionString, autocommit=True) oConnexion.setencoding(encoding=’utf-8′) oQueryParameter = “select * from my_db.my_table;” oParameterData = pandas.read_sql(oQueryParameter, oConnexion) oCursor = oConnexion.cursor() for oRow […]

Instalación de PySpark – No se pudo encontrar el directorio de Spark jars

Estoy teniendo muchos problemas con Spark en Windows . Así que explicando el error: Hay una gran cantidad de tutoriales para instalar y resolver muchos problemas, sin embargo, lo he estado intentando durante horas y todavía no puedo hacer que funcione. Tengo Java 8 , que tengo en System Path C:\>java -version java version “1.8.0_131” […]

Spark java.lang.VerifyError

Recibo el siguiente error cuando bash llamar, uso Python Client para la chispa. lines = sc.textFile(hdfs://…) lines.take(10) Sospecho que las versiones de chispa y hadoop podrían no ser compatibles. Aquí está el resultado de la versión hadoop: Hadoop 2.5.2 Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r cc72e9b000545b86b75a61f4835eb86d57bfafc0 Comstackdo por jenkins en 2014-11-14T23: 45Z Compiled with protoc 2.5.0 Desde el […]

Ejecutando el tarro de Hadoop usando Luigi python

Necesito ejecutar un trabajo en jado de Hadoop usando Luigi de python. Busqué y encontré ejemplos de escritura de mapeador y reductor en Luigi pero nada para ejecutar directamente un tarro de Hadoop. Necesito ejecutar un flask de Hadoop comstackdo directamente. ¿Cómo puedo hacerlo?

Con Spark, cómo conectar o solucionar un error: “WARN TaskSchedulerImpl: El trabajo inicial no ha aceptado ningún recurso”

Por favor, dime cómo seguir el problema. En primer lugar, confirmé que el siguiente código se ejecuta cuando el maestro es “local”. Entonces empecé dos instancias de EC2 (m1.large). Sin embargo, cuando el maestro es “spark: // MASTER_PUBLIC_DNS: 7077”, aparece el mensaje de error “TaskSchedulerImpl” y falla. Cuando cambio a una dirección NO VÁLIDA como […]

Cómo empezar con Big Data Analysis

He sido usuario de R desde hace mucho tiempo y recientemente comencé a trabajar con Python. Al usar sistemas RDBMS convencionales para el almacenamiento de datos, y R / Python para procesar números, siento la necesidad de ensuciarme las manos con Big Data Analysis. Me gustaría saber cómo empezar con el procesamiento de Big Data. […]

Ejecución de lib de python externo (NLTK) con transmisión de hadoop

Intenté usar http://blog.cloudera.com/blog/2008/11/sending-files-to-remote-task-nodes-with-hadoop-mapreduce/ zip -r nltkandyaml.zip nltk yaml mv ntlkandyaml.zip /path/to/where/your/mapper/will/be/nltkandyaml.mod import zipimport importer = zipimport.zipimporter(‘nltkandyaml.mod’) yaml = importer.load_module(‘yaml’) nltk = importer.load_module(‘nltk’) Y el error que tengo es: job_201406080403_3863 / intent_201406080403_3863_m_000000_0 / work /./ app / mapper.py “, línea 12, en importación nltk ImportError: No hay un módulo llamado nltk Cualquiera que se haya enfrentado […]

¿Está Dataframe.toPandas siempre en el nodo del controlador o en los nodos de trabajo?

Imagina que estás cargando un gran conjunto de datos por SparkContext y Hive. Entonces, este conjunto de datos se distribuye en su clúster Spark. Por ejemplo, una observación (valores + marcas de tiempo) para miles de variables. Ahora usaría algunos métodos de mapa / reducción o agregaciones para organizar / analizar sus datos. Por ejemplo […]

cálculo dynamic de la columna pyspark

A continuación se muestra mi dataframe de chispa abc 1 3 4 2 0 0 4 1 0 2 2 0 Mi salida debe ser la siguiente abc 1 3 4 2 0 2 4 1 -1 2 2 3 La fórmula es prev(c)-b+a , es decir, 4-2+0=2 y 2-4+1=-1 ¿Alguien por favor me puede […]

PySpark: lea, asigne y reduzca desde un archivo de texto de registro multilínea con newAPIHadoopFile

Estoy tratando de resolver un problema que es similar a este post . Mis datos originales son un archivo de texto que contiene valores (observaciones) de varios sensores. Cada observación se proporciona con una marca de tiempo, pero el nombre del sensor se da solo una vez, y no en cada línea. Pero hay varios […]