Articles of pandas

Pandas – Reemplazar valores en un DataFrame basado en un DataFrame Boollean

Estoy usando Pandas v0.20.2 y tengo DataFrame, como el siguiente: df = pd.DataFrame(dict(a=[0,1], b=[3,4], c=[6,7]), index=[‘spam’, ‘ham’]) # abc # spam 0 3 6 # ham 1 4 7 Y tengo otro DataFrame que es una máscara: mask = pd.DataFrame(dict(a=[True,False], b=[True,True]), index=[‘spam’, ‘ham’]) # ab # spam True True # ham False True Y quiero […]

La cadena fila-índice en pd.read_csv causa el error “La etiqueta no está en el “

Estoy importando un CSV en un dataframe de pandas. Cuando hago esto, estoy configurando la columna de índice en 0, que es el índice listado (0 a 10). Recibo el error Error de clave: la etiqueta [1] no está en el [índice]. He revisado los datos varias veces para asegurarme de que la primera columna […]

El gráfico de barras astackdas de Pandas duplica los colores para leyendas grandes

Necesito crear un gráfico de barras astackdas con un gran número de categorías (más o menos). El problema es que Pandas solo proporciona colores para hasta 7 categorías diferentes. Establece los colores restantes en azul. ¿Cómo me aseguro de que cada categoría tenga un color único? Ejemplo: df = pd.DataFrame(np.abs(np.random.randn(10,10)),columns=[‘A’,’B’,’C’,’D’,’E’,’F’,’G’,’H’,’I’,’J’], index=range(10)) df.plot(kind=’bar’,stacked=True,figsize=(20,10)) Produce un gráfico […]

Pandas: la matriz de fusión es demasiado grande, grande, ¿cómo fusionarse en partes?

Cuando bash fusionar dos marcos de datos utilizando pandas, recibo este mensaje: “ValueError: la matriz es demasiado grande”. Estimo que la tabla combinada tendrá unos 5 mil millones de filas, lo que probablemente sea demasiado para mi computadora con 8 GB de RAM (¿está limitado solo por mi RAM o está integrado en el sistema […]

¿La forma más rápida de iterar a través de un dataframe de pandas?

¿Cómo ejecuto un dataframe y devuelvo solo las filas que cumplen una determinada condición? Esta condición debe ser probada en filas y columnas anteriores. Por ejemplo: #1 #2 #3 #4 1/1/1999 4 2 4 5 1/2/1999 5 2 3 3 1/3/1999 5 2 3 8 1/4/1999 6 4 2 6 1/5/1999 8 3 4 7 […]

Python Pandas – encuentra grupo consecutivo con valores agregados máximos

Tengo un dataframe con fechas y enteros. import numpy as np import pandas as pd df = pd.DataFrame() df[‘dt’] = pd.date_range(“2017-01-01 12:00”, “2017-01-01 12:30″, freq=”1min”) df[‘val’] = np.random.choice(xrange(1, 100), df.shape[0]) Me da dt val 0 2017-01-01 12:00:00 33 1 2017-01-01 12:01:00 42 2 2017-01-01 12:02:00 44 3 2017-01-01 12:03:00 6 4 2017-01-01 12:04:00 70 5 […]

que es la forma más eficiente de cargar un conjunto de datos JSON en Pandas DataFrames

No encontré nada en las documentaciones y el libro de cocina de Pandas (solo referencias a CSV y archivos de texto con separadores) en JSON. ¿Existe una función ya definida para cargar JSON directamente en DataFrame? Si existen diferentes alternativas, ¿cuál es la más eficiente?

¿Cómo extraer contenido específico en un dataframe de pandas con una expresión regular?

Considere el siguiente dataframe de pandas: In [114]: df[‘movie_title’].head() ​ Out[114]: 0 Toy Story (1995) 1 GoldenEye (1995) 2 Four Rooms (1995) 3 Get Shorty (1995) 4 Copycat (1995) … Name: movie_title, dtype: object Actualización: Me gustaría extraer con una expresión regular solo los títulos de las películas. Entonces, usemos la siguiente expresión regular: \b([^\d\W]+)\b […]

Pandas dividen columnas en multinivel

Tengo un dataframe como este: df = pd.DataFrame(pd.DataFrame([[1,2,3,4],[5,6,7,8],[9,10,11,12]],columns=[“X_a”,”Y_b”,”X_b”,”Y_a”])) X_a Y_b X_b Y_a 0 1 2 3 4 1 5 6 7 8 2 9 10 11 12 Ahora, básicamente, qué debo hacer para crear un dataframe con columnas de varios niveles dividiendo las columnas en función de _ (guión bajo) y agrupándolas en función del […]

Pandas: Recuento de tiempo superpuesto

Tengo un conjunto de datos que tiene un montón de horas de inicio y finalización. Utilizando pandas, estoy buscando la mejor manera de obtener el número de horas de inicio y finalización superpuestas, es decir, las horas máximas de inicio y finalización que ocurren. La tabla es de sesiones con hora de inicio y finalización, […]