Articles of datos de

Inserte filas como resultado de una operación grupal en el dataframe original

Por ejemplo, tengo un dataframe de pandas de la siguiente manera: col_1 col_2 col_3 col_4 a X 5 1 a Y 3 2 a Z 6 4 b X 7 8 b Y 4 3 b Z 6 5 Y quiero, para cada valor en col_1, agregar los valores en col_3 y col_4 (y muchas […]

__getitem__, __setitem__ teclas múltiples Python

Estoy intentando crear una clase que almacena datos en un búfer local y actúa como una interfaz para una base de datos. Tengo el siguiente código: class Table(object): def __init__(self, tableName, **columnDict): self.tableName = tableName self.columns = {} self.types = {} self.columns[‘id’] = [] self.types[‘id’] = ‘INT PRIMARY KEY NOT NULL’ for name in columnDict: […]

Pandas: actualización de índice y cambio de valor accedido por ubicación

Tengo dos preguntas relacionadas con el índice en los marcos de datos de Python Pandas. import pandas as pd import numpy as np df = pd.DataFrame({‘id’ : range(1,9), ‘B’ : [‘one’, ‘one’, ‘two’, ‘three’, ‘two’, ‘three’, ‘one’, ‘two’], ‘amount’ : np.random.randn(8)}) df = df.ix[df.B != ‘three’] # remove where B = three df.index >> Int64Index([0, […]

Eliminar palabras que no están en inglés del texto usando Python

Estoy haciendo un ejercicio de limpieza de datos en python y el texto que estoy limpiando contiene palabras en italiano que me gustaría eliminar. He estado buscando en línea si podría hacer esto en Python usando un kit de herramientas como nltk. Por ejemplo dado algún texto: “Io andiamo to the beach with my amico.” […]

Selecciona las filas del marco de pandas basadas en los valores de dos columnas.

Deseo seleccionar algunas filas específicas basadas en dos valores de columna. Por ejemplo: d = {‘user’ : [1., 2., 3., 4] ,’item’ : [5., 6., 7., 8.],’f1′ : [9., 16., 17., 18.], ‘f2’:[4,5,6,5], ‘f3’:[4,5,5,8]} df = pd.DataFrame(d) print df Out: f1 f2 f3 item user 0 9 4 4 5 1 1 16 5 5 […]

Python Pandas: Asignar el último valor del grupo DataFrame a todas las entradas de ese grupo

En Python Pandas, tengo un DataFrame. Agrupo este DataFrame por una columna y quiero asignar el último valor de una columna a todas las filas de otra columna. Sé que puedo seleccionar la última fila del grupo con este comando: import pandas as pd df = pd.DataFrame({‘a’: (1,1,2,3,3), ‘b’:(20,21,30,40,41)}) print(df) print(“-“) result = df.groupby(‘a’).nth(-1) print(result) […]

¿Existe una biblioteca de Python para manejar conjuntos matemáticos complicados (construidos utilizando la notación matemática de constructores de conjuntos)?

A menudo trabajo con matrices multidimensionales cuyos índices de matriz se generan a partir de un conjunto complicado especificado por el usuario. Estoy buscando una biblioteca con clases para representar conjuntos complicados con un número arbitrario de índices y predicados arbitrariamente complicados. Dada una descripción del conjunto, la salida deseada sería un generador. Este generador, […]

Pandas Dataframe datetime con Index vs MultiIndex

Con un solo dataframe indexado puedo hacer lo siguiente: df2 = DataFrame(data={‘data’: [1,2,3]}, index=Index([dt(2016,1,1), dt(2016,1,2), dt(2016,2,1)])) >>> df2[‘2016-01 : ‘2016-01’] data 2016-01-01 1 2016-01-02 2 >>> df2[‘2016-01-01’ : ‘2016-01-01’] data 2016-01-01 1 El corte de fecha y hora funciona cuando le da un día completo (es decir, 2016-01-01), y también funciona cuando le da una […]

Cadena de conjuntos de datos de múltiples archivos HDF5 / conjuntos de datos

Los beneficios y la asignación simplista que proporciona h5py (a través de HDF5) para la persistencia de conjuntos de datos en el disco es excepcional. Realizo algunos análisis en un conjunto de archivos y almaceno el resultado en un conjunto de datos, uno para cada archivo. Al final de este paso, tengo un conjunto de […]

Aplicar una función de pares en una serie de pandas.

Tengo una serie de pandas cuyos elementos constituyen frozensets: data = {0: frozenset({‘apple’, ‘banana’}), 1: frozenset({‘apple’, ‘orange’}), 2: frozenset({‘banana’}), 3: frozenset({‘kumquat’, ‘orange’}), 4: frozenset({‘orange’}), 5: frozenset({‘orange’, ‘pear’}), 6: frozenset({‘orange’, ‘pear’}), 7: frozenset({‘apple’, ‘banana’, ‘pear’}), 8: frozenset({‘banana’, ‘persimmon’}), 9: frozenset({‘apple’}), 10: frozenset({‘banana’}), 11: frozenset({‘apple’})} tokens = pd.Series(data); tokens 0 (apple, banana) 1 (orange, apple) 2 (banana) […]