Articles of marcos de datos de los

¿El método más rápido para encontrar datos de otra fila en Pandas DataFrame basado en el cálculo de datos de columna?

Sin recurrir al bucle a través de cada fila individual del dataframe, que puede ser muy lento para grandes conjuntos de datos, ¿cómo puedo usar el resultado calculado de dos columnas en una fila, 2*A – B , para encontrar un valor en la columna B y desde esa nueva fila extrae datos de la […]

¿Eliminar los nombres de usuario de un dataframe que no aparecen un número determinado de veces?

Estoy tratando de entender lo que se proporciona a continuación (que encontré en línea, pero no entiendo completamente). Básicamente, quiero eliminar los nombres de usuario que no aparecen en mi dataframe al menos 4 veces (aparte de eliminar estos nombres, no quiero modificar el dataframe de ninguna otra manera). ¿El siguiente código resuelve este problema […]

Adjuntar lista a pandas DataFrame como nueva fila con índice

A pesar de las numerosas preguntas de desbordamiento de stack en la adición de datos a un dataframe, realmente no pude encontrar una respuesta a la siguiente. Estoy buscando una solución directa para agregar una lista como última fila de un dataframe. Imagina que tengo un simple dataframe: indexlist=[‘one’] columnList=list(‘ABC’) values=np.array([1,2,3]) # take care, the […]

Pandas consiguen filas después de groupby

Supongamos que tengo el siguiente conjunto de datos: uid iid val 1 1 2 1 2 3 1 3 4 1 4 4.5 1 5 5.5 2 1 3 2 2 3 2 3 4 3 4 4.5 3 5 5.5 A partir de estos datos, quiero agrupar primero por uid, luego obtener el último […]

Crear un pd.Dataframe de la serie

Tengo un Dataframe como este: luego obtendré una fila con esto y agregaré una nueva columna con un nombre y tiempo de nombre de columna 15. loc_OBL_ein = df.loc[5] loc_OBL_ein.insert(1,’time’,value=15) luego me aparece un error El objeto ‘Serie’ no tiene ningún atributo ‘insertar’. Mi idea ahora era convertir loc_OBL_ein en un objeto con los mismos […]

¿Cómo aplicar diferentes funciones a un objeto groupby?

Tengo un dataframe como este: import pandas as pd df = pd.DataFrame({‘id’: [1, 2, 1, 1, 2, 1, 2, 2], ‘min_max’: [‘max_val’, ‘max_val’, ‘min_val’, ‘min_val’, ‘max_val’, ‘max_val’, ‘min_val’, ‘min_val’], ‘value’: [1, 20, 20, 10, 12, 3, -10, -5 ]}) id min_max value 0 1 max_val 1 1 2 max_val 20 2 1 min_val 20 3 […]

Agrupe por una columna y encuentre la sum y el valor máximo para otra en pandas

Tengo un dataframe como este: Name id col1 col2 col3 cl4 PL 252 0 747 3 53 PL2 252 1 24 2 35 PL3 252 4 75 24 13 AD 889 53 24 0 95 AD2 889 23 2 0 13 AD3 889 0 24 3 6 BG 024 12 89 53 66 BG1 024 […]

¿Cómo contar registros únicos por dos columnas en pandas?

Tengo dataframe en pandas: In [10]: df Out[10]: col_a col_b col_c col_d 0 France Paris 3 4 1 UK Londo 4 5 2 US Chicago 5 6 3 UK Bristol 3 3 4 US Paris 8 9 5 US London 44 4 6 US Chicago 12 4 Necesito contar ciudades únicas. Puedo contar estados únicos […]

pandas dividen el valor de la fila por la sum agregada con una condición establecida por otra celda

Hola Con la esperanza de obtener ayuda, tengo dos columnas Dataframe df as; Source ID 1 2 2 3 1 2 1 2 1 3 3 1 Mi intención es agrupar la Fuente y dividir la celda de ID por el total en función de la Fuente agrupada y adjuntar esto al dataframe original para […]

¿Cómo eliminar una columna en el dataframe de pandas basado en una condición?

Tengo un dataframe de pandas, con muchos valores NAN . ¿Cómo puedo eliminar columnas de forma que number_of_na_values > 2000 ? Intenté hacerlo así: toRemove = set() naNumbersPerColumn = df.isnull().sum() for i in naNumbersPerColumn.index: if(naNumbersPerColumn[i]>2000): toRemove.add(i) for i in toRemove: df.drop(i, axis=1, inplace=True) ¿Hay una manera más elegante de hacerlo?