Articles of dataframe

Pandas dividen columnas en multinivel

Tengo un dataframe como este: df = pd.DataFrame(pd.DataFrame([[1,2,3,4],[5,6,7,8],[9,10,11,12]],columns=[“X_a”,”Y_b”,”X_b”,”Y_a”])) X_a Y_b X_b Y_a 0 1 2 3 4 1 5 6 7 8 2 9 10 11 12 Ahora, básicamente, qué debo hacer para crear un dataframe con columnas de varios niveles dividiendo las columnas en función de _ (guión bajo) y agrupándolas en función del […]

Fusionar / Unir 2 DataFrames por criterios complejos

Tengo 2 grandes conjuntos de datos (grandes en términos de 70K a 110K cada uno). Quiero correlacionar / comparar ambos y encontrar qué elementos de set2 se pueden encontrar en set1 en función de algunas condiciones / criterios. Mi estrategia actual es ordenar ambas listas por campos comunes y luego ejecutar nesteds for bucles, realizar […]

Marco de datos de pandas a la izquierda se fusiona sin reindexar

¿Se pregunta si hay una forma más intuitiva de combinar marcos de datos? In[140]: df1 = pd.DataFrame(data=[[1,2],[3,4],[10,4],[5,6]], columns=[‘A’,’B’], index=[1,3,5,7]) In[141]: df1 Out[141]: AB 1 1 2 3 3 4 5 10 4 7 5 6 In[142]: df2 = pd.DataFrame(data=[[1,5],[3,4],[10,3],[5,2]], columns=[‘A’,’C’], index=[0,2,4,6]) In[143]: df2 Out[143]: AC 0 1 5 2 3 4 4 10 3 6 […]

¿Cómo fusiono filas duplicadas en una en un DataFrame cuando tienen valores diferentes?

Tengo un DataFrame como el siguiente: ID NAME TEL_1 TEL_2 TEL_3 1 John 123456 754987 465317 1 John 465987 465987 1 John 546783 2 Robert 264687 2 Robert 462531 3 William 432645 765346 875137 Necesito unir las filas que tienen la misma ID , guardando los valores del teléfono, como esto: ID NAME TEL_1 TEL_2 […]

Tabla dinámica de pandas: categorías ordenadas que causan márgenes inesperados

Utilizando python 3.7 y pandas 0.23.4. Estoy tratando de hacer tablas dinámicas con datos categóricos ordenados. Si incluyo márgenes, los subtotales no parecen estar en el orden correcto. import pandas as pd m=’male’ f=’female’ data = {‘num’: [0,1,2,3,4,5,6,7,8,9], ‘age’: [1,2,2,3,3,3,3,1,2,3], ‘sex’: [f,f,f,f,f,f,f,m,m,m]} df = pd.DataFrame(data=data) df[‘age1’] = pd.Categorical(df[‘age’],categories=[3,2,1],ordered=True) df[‘sex1’] = pd.Categorical(df[‘sex’],categories=[m,f],ordered=True) pd.pivot_table(df,values=’num’,index=’age1′,columns=’sex1′,aggfunc=’count’,margins=True) Salida (orden de […]

Suma filas duplicadas en un dataframe pandas de múltiples índices

Hola estoy teniendo problemas para tratar con Pandas. Estoy tratando de sumr filas duplicadas en un Dataframe multiindex. df.groupby(level=[0,1]).sum() con df.groupby(level=[0,1]).sum() , también con df.stack().reset_index().groupby([‘year’, ‘product’]).sum() y algunos otros, pero no puedo hacerlo funcionar. También me gustaría agregar cada producto único para cada año dado y darles un valor de 0 si no estaban en […]

Usando rolling_apply con una función que requiere 2 argumentos en Pandas

Estoy tratando de usar rollapply con una fórmula que requiere 2 argumentos. Que yo sepa, la única forma (a menos que cree la fórmula desde cero) para calcular la correlación kendall tau, con la corrección de enlace estándar incluida es: >>> import scipy >>> x = [5.05, 6.75, 3.21, 2.66] >>> y = [1.65, 26.5, […]

Pandas Multiindex from array => TypeError: tipo unsashable: ‘dict’

Estoy tratando de crear el dataframe desde la matriz con la siguiente estructura: df = [[{‘date_time’: Timestamp(‘2015-05-22 05:37:59’), ‘name’: ‘Tom’, ‘value’: ‘129’}, {‘date_time’: Timestamp(‘2015-05-22 05:37:59’), ‘name’: ‘Kate’, ‘value’: ‘0’}, {‘date_time’: Timestamp(‘2015-05-22 05:37:59’), ‘name’: ‘GroupeId’, ‘value’: ‘0’}, {…}, {…}, {…}],[another list of dictionaries like the first one],[and another one]] usando este código: def create_from_arr(): baby_array=pd.MultiIndex.from_tuples(df, names=[‘sessions’, […]

eliminar filas y las matrices ValueError tenían diferentes longitudes

Mi dataframe tiene una subcategoría, en cada categoría ( cat , dog , bird ), se presenta la información de las estadísticas. Necesito eliminar las filas si contienen información en count y freq , y solo mantener las filas con los valores sd y mean . Algunos valores son NaN . ValueError ocurre en mis […]

Las pandas crean una columna de ID externa basada en la columna Nombre

Tengo un dataframe simple como este, por ejemplo: df = pd.DataFrame({‘Name’: [‘John Doe’, ‘Jane Smith’, ‘John Doe’, ‘Jane Smith’,’Jack Dawson’,’John Doe’]}) df: Name 0 John Doe 1 Jane Smith 2 John Doe 3 Jane Smith 4 Jack Dawson 5 John Doe Quiero agregar una columna [‘foreign_key’] que asigna una ID única a cada nombre único […]