Articles of dataframe

¿Cómo estimar el tamaño real del dataframe en pyspark?

¿Cómo determinar un tamaño de dataframe? En este momento, estimo el tamaño real de un dataframe de la siguiente manera: headers_size = key for key in df.first().asDict() rows_size = df.map(lambda row: len(value for key, value in row.asDict()).sum() total_size = headers_size + rows_size Es demasiado lento y estoy buscando una mejor manera.

Cálculo de la similitud de coseno entre todas las filas de un dataframe en pyspark

Tengo un conjunto de datos que contiene a los trabajadores con su información demográfica como la edad del sexo, la dirección, etc. y sus ubicaciones de trabajo. Creé un RDD desde el conjunto de datos y lo convertí en un DataFrame. Hay múltiples entradas para cada ID. Por lo tanto, creé un DataFrame que contenía […]

Conversión de Pandas DataFrame a la tabla naranja

Me doy cuenta de que este es un problema en GitHub ya . ¿Alguien tiene algún código que convierta un DataFrame de Pandas en una tabla naranja? Explícitamente, tengo la siguiente tabla. user hotel star_rating user home_continent gender 0 1 39 4.0 1 2 female 1 1 44 3.0 1 2 female 2 2 63 […]

Spark dataframe transformar varias filas en columna

Soy un principiante para encender, y quiero transformarme debajo del dataframe de origen (cargar desde un archivo JSON): +–+—–+—–+ |A |count|major| +–+—–+—–+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | c| 3| m1| | […]

Pandas de Python reemplazando cadenas en el dataframe con números

¿Hay alguna forma de usar la función de mapeo o algo mejor para reemplazar valores en un dataframe completo? Sólo sé cómo realizar el mapeo en serie. Me gustaría reemplazar las cadenas en las columnas ‘tesst’ y ‘set’ con un número, por ejemplo set = 1, test = 2 Aquí hay un ejemplo de mi […]

Columna de binning con pandas python

Tengo una columna de dataframe con valores numéricos: df[‘percentage’].head() 46.5 44.2 100.0 42.12 Quiero ver la columna como cuenta bin: bins = [0, 1, 5, 10, 25, 50, 100] ¿Cómo puedo obtener el resultado como contenedores con sus value counts ? [0, 1] bin amount [1, 5] etc [5, 10] etc ……

Regresión lineal en Pandas DataFrame usando Sci-kit Learn

Soy nuevo en Python y trato de realizar una regresión lineal usando sklearn en un dataframe de pandas. Esto es lo que hice: data = pd.read_csv(‘xxxx.csv’) Después de eso obtuve un DataFrame de dos columnas, llamémoslos ‘c1’, ‘c2’. Ahora quiero hacer una regresión lineal en el conjunto de (c1, c2), así que entré X=data[‘c1’].values Y=data[‘c2’].values […]

Filtrado de datos de pandas con múltiples columnas booleanas

Estoy tratando de filtrar una df usando varias variables booleanas que son parte de la df, pero no he podido hacerlo. Data de muestra: A | B | C | D John Doe | 45 | True | False Jane Smith | 32 | False | False Alan Holmes | 55 | False | True […]

Truncar la columna `TimeStamp` a la precisión de la hora en pandas` DataFrame`

Tengo un pandas.DataFrame llamado df que tiene un índice generado automáticamente, con una columna dt : df[‘dt’].dtype, df[‘dt’][0] # (dtype(‘<M8[ns]'), Timestamp('2014-10-01 10:02:45')) Lo que me gustaría hacer es crear una nueva columna truncada a la precisión de la hora. Actualmente estoy usando: df[‘dt2’] = df[‘dt’].apply(lambda L: datetime(L.year, L.month, L.day, L.hour)) Esto funciona, así que está […]

Spark – Creando DataFrame nested

Estoy empezando con PySpark y tengo problemas para crear DataFrames con objetos nesteds. Este es mi ejemplo. Tengo usuarios. $ cat user.json {“id”:1,”name”:”UserA”} {“id”:2,”name”:”UserB”} Los usuarios tienen pedidos. $ cat order.json {“id”:1,”price”:202.30,”userid”:1} {“id”:2,”price”:343.99,”userid”:1} {“id”:3,”price”:399.99,”userid”:2} Y me gusta unirme a él para obtener una estructura en la que los pedidos se anidan en los usuarios. $ […]