Articles of dataframe

¿Se puede iterar un DataFrame sin copiar la memoria?

Estoy lanzando un Proceso que obtiene un par de gigas de datos de una base de datos en un DataFrame con un índice de fecha. Desde allí, creo un Administrador para almacenar esos datos y llamo a una función utilizando un Grupo para utilizar núcleos de CPU. Como tengo tantos datos, necesito usar la memoria […]

Busque eficientemente el primer carácter de una cadena en un dataframe de pandas

Tengo una columna de dataframe de pandas y necesito modificar cualquier entrada de esa columna que comience con un 2. En este momento, estoy usando esto que funciona, pero es muy, muy lento: for i, row in df.iterrows(): if df[‘IDnumber’][i].startswith(‘2′) == True: ”’Do some stuff”’ Siento (lee: sabe) que hay una manera más eficiente de […]

Las pandas modifican los cuadros de datos en la parte 2 del bucle

Dados los siguientes marcos de datos: import pandas as pd k=pd.DataFrame({‘A’:[1,1],’B’:[3,4]}) e=pd.DataFrame({‘A’:[1,1],’B’:[6,7]}) k AB 0 1 3 1 1 4 e AB 0 1 6 1 1 7 Me gustaría aplicar una sum agrupada en un bucle, pero al hacerlo no parece modificar los marcos de datos. Esto es lo que he intentado: for d […]

Ordenar Pandas DataFrame por valor

Sé que esta pregunta tiene muchas respuestas, por ejemplo: ¿Cómo ordenar el dataframe de los pandas usando valores de varias columnas? Probé las soluciones dadas por los usuarios, pero no puedo obtener una columna ordenada. Construí un DataFrame: weekly = {‘Tweet ID’: Series(tweetID), ‘Fecha de Publicación’: Series(tweetDate), ‘Tweet’: Series(textStatus), ‘Retweets’: Series(retweetCount), ‘Favoritos’: Series(favoriteCount), ‘Hashtags’: Series(hashtags), […]

¿Cómo convertir una columna con tipo de cadena a forma int en el dataframe pyspark?

Tengo dataframe en pyspark. Algunas de sus columnas numéricas contienen ‘nan’, de modo que cuando estoy leyendo los datos y revisando el esquema del dataframe, esas columnas tendrán el tipo ‘cadena’. Cómo puedo cambiarlos a tipo int. Reemplacé los valores de ‘nan’ con 0 y de nuevo verifiqué el esquema, pero también muestra el tipo […]

Python pandas isin método?

Tengo un diccionario ‘wordfreq’ como este: {‘techsmart’: 30, ‘paradies’: 57, ‘jobvark’: 5000, ‘midgley’: 100, ‘weisman’: 2, ‘tucuman’: 1, ‘amdahl’: 2, ‘frogfeet’: 1, ‘d8848’: 1, ‘jiaoyuwang’: 1, ‘walter’: 19} y quiero poner las claves en una lista si el valor es más de 5 y también si la clave no está en otro dataframe ‘df’, y […]

Cómo extraer tuplas de un dataframe simétrico de pandas

Tengo un dataframe que representa una matriz simétrica: abcd a 2 3 4 b 2 6 8 c 3 6 5 d 4 8 5 Desde donde quiero ir a: [(a,b,2),(a,c,3),(a,d,4),(b,c,6),…] ¿Hay alguna forma pythonica / pandática / algebraica de hacerlo o debería ir para hacer bucles? Gracias.

Crear DataArray desde Dict de 2D DataFrames / Arrays

Estoy tratando de pasar de Pandas a Xarray para Xarray de Xarray N-Dimensional DataArrays para expandir mi repertorio. Siendo realistas, voy a tener un montón de pd.DataFrames diferentes (en este caso row = month, col = attribute) a lo largo de un eje particular (pacientes en el siguiente ejemplo simulado) que me gustaría fusionar (sin […]

Establecer el valor máximo en la columna DataFrame

Tengo el siguiente punto de datos en el dataframe de panda: DateTime Data 2017-11-21 18:54:31 1 2017-11-22 02:26:48 2 2017-11-22 10:19:44 3 2017-11-22 15:11:28 6 2017-11-22 23:21:58 7 2017-11-28 14:28:28 28 2017-11-28 14:36:40 0 2017-11-28 14:59:48 1 Quiero aplicar una función para convertir todos los valores de datos mayores que 1 a 1: ¿Hay alguna […]

Cómo dividir el dataframe de los pandas según la diferencia de valores en una columna

Tengo un dataframe de pandas con algunas columnas, una llamada “huelga”. Si el valor de una fila de la columna de huelga es mayor que 100 más la fila anterior de la columna de huelga, quiero dividir el dataframe en dos en ese punto (aún tendrían los mismos nombres de columna) y así sucesivamente. Soy […]