Articles of marco de datos de los

Cómo concatenar múltiples valores de columna en una sola columna en el dataframe de Panda

Esta pregunta es igual a esta publicada anteriormente. Quiero concatenar tres columnas en lugar de concatenar dos columnas: Aquí está la combinación de dos columnas: df = DataFrame({‘foo’:[‘a’,’b’,’c’], ‘bar’:[1, 2, 3], ‘new’:[‘apple’, ‘banana’, ‘pear’]}) df[‘combined’]=df.apply(lambda x:’%s_%s’ % (x[‘foo’],x[‘bar’]),axis=1) df bar foo new combined 0 1 a apple a_1 1 2 b banana b_2 2 3 […]

Cómo eliminar la última columna de datos de un dataframe de pandas

Tengo algunos datos cvs que tienen una columna vacía al final de cada fila. Me gustaría dejarlo fuera de la importación o borrarlo alternativamente después de la importación. Mis datos cvs tienen un número variable de columnas. He intentado usar df.tail() , pero no he podido elegir la última columna con él. employment=pd.read_csv(‘./data/spanish/employment1976-1987thousands.csv’,index_col=0,header=[7,8],encoding=’latin-1′) Datos: 4.- […]

Combinar Pandas DataFrame DateTime Columns

Supongo que tengo los marcos de datos de la siguiente manera: Year Month Day 2003 1 8 2003 2 7 Cómo combinar el Año, el Mes y el Día en la columna recién definida en el dataframe como tal, el dataframe sería: Year Month Day Date 2003 1 8 2003-1-8 2003 2 7 2003-2-7 ¿Alguna […]

pandas dataframe groupby y obtener nth fila

Tengo un dataframe de pandas como siguiente. df = pd.DataFrame([[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3], list(‘AAABBBBABCBDDD’), [1.1, 1.7, 2.5, 2.6, 3.3, 3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8], [‘x/y/z’,’x/y’,’x/y/z/n’,’x/u’,’x’,’x/u/v’,’x/y/z’,’x’,’x/u/v/b’,’-‘,’x/y’,’x/y/z’,’x’,’x/u/v/w’],[‘1′,’3′,’3′,’2′,’4′,’2′,’5′,’3′,’6′,’3′,’5′,’1′,’1′,’1’],[‘200′,’400′,’404′,’200′,’200′,’404′,’200′,’404′,’500′,’200′,’500′,’200′,’200′,’400’]]).T df.columns = [‘col1′,’col2′,’col3′,’col4′,’ID’,’col5′] Quiero agrupar esto por “ID” y obtener la segunda fila de cada grupo. Más tarde necesitaré obtener tercero y cuarto también. Solo explícame cómo obtener solo la segunda fila […]

Python Pandas – Encuentra la diferencia entre dos marcos de datos

Tengo dos cuadros de datos df1 y df2, donde df2 es un subconjunto de df1. ¿Cómo obtengo un nuevo dataframe (df3) que es la diferencia entre los dos marcos de datos? En otras palabras, ¿un dataframe que tenga todas las filas / columnas en df1 que no estén en df2?

Leyendo un archivo pickle (Marco de datos Python de PANDAS) en R

¿Hay una manera fácil de leer archivos de pickle (.pkl) desde Pandas Dataframe a R? Una posibilidad es exportar a CSV y hacer que R lea el CSV, pero eso me parece realmente incómodo porque mis marcos de datos son bastante grandes. ¿Hay una manera más fácil de hacerlo? ¡Gracias!

Pandas: ordenación de cuadros de datos

Estoy tratando de ordenar un dataframe utilizando el método sort_values. Tengo una ttwig de datos (df) con solo dos columnas (‘TS’, ‘VALUES’) y siempre obtengo un error como el siguiente: df.columns Out[88]: Index([‘TS’, ‘VALUES’], dtype=’object’) df.sort_values(by=’TS’,axis=1,ascending=True,inplace=True,kind=’quicksort’,na_position=’last’) Traceback (most recent call last): File “”, line 1, in df.sort_values(by=’TS’,axis=1,ascending=True,inplace=True,kind=’quicksort’,na_position=’last’) File “C:\Users\gianm\Anaconda3\lib\site-packages\pandas\core\frame.py”, line 4421, in sort_values stacklevel=stacklevel) File […]

Crear una nueva columna a partir de filas específicas en el dataframe de pandas

Tengo un archivo csv donde cada fila representa una propiedad seguida de un número variable de filas subsiguientes que reflejan las habitaciones en la propiedad. Quiero crear una columna que, para cada propiedad, sume el área de piso bruta de cada habitación. La naturaleza no estructurada de los datos hace que esto sea difícil de […]

Consulta del dataframe de Python con espacios en el nombre de la columna

Quiero filtrar el dataframe usando la consulta ExcludeData= [1,3,4,5] dfResult.query(‘Column A in @ExcludeData’) ¿Cómo uso la columna A en la consulta sin cambiarle el nombre?

Fillna en columnas múltiples en lugar en Python Pandas

Tengo un dataframe de pandas de tipos mixtos, algunos son cadenas y algunos son números. Me gustaría reemplazar los valores NAN en columnas de cadena por ‘.’, Y los valores NAN en columnas flotantes por 0. Considera este pequeño ejemplo ficticio: df = pd.DataFrame({‘Name’:[‘Jack’,’Sue’,pd.np.nan,’Bob’,’Alice’,’John’], ‘A’: [1, 2.1, pd.np.nan, 4.7, 5.6, 6.8], ‘B’: [.25, pd.np.nan, pd.np.nan, […]