Articles of indexando

¿Cómo puedo seleccionar datos de un dataframe dask mediante una lista de índices?

Digamos, tengo el siguiente dataframe dask. dict_ = {‘A’:[1,2,3,4,5,6,7], ‘B’:[2,3,4,5,6,7,8], ‘index’:[‘x1’, ‘a2’, ‘x3’, ‘c4’, ‘x5’, ‘y6’, ‘x7’]} pdf = pd.DataFrame(dict_) pdf = pdf.set_index(‘index’) ddf = dask.dataframe.from_pandas(pdf, npartitions = 2) Además, tengo una lista de índices en los que estoy interesado, por ejemplo, indices_i_want_to_select = [‘x1′,’x3’, ‘y6’] ¿Cómo puedo generar un nuevo dataframe dask, que contiene […]

Indexación de archivos (¿usando árboles binarios?) En Python

Fondo Tengo muchos (¡miles!) De archivos de datos con un formato estándar basado en campos (piense delimitado por tabulaciones, los mismos campos en cada línea, en cada archivo). Estoy debatiendo varias formas de hacer que estos datos estén disponibles / puedan buscarse. (Algunas opciones incluyen RDBMS, NoSQL, usar grep / awk y amigos, etc.). Propuesta […]

Error al convertir la marca de tiempo del dataframe de Pandas

Soy bastante nuevo en trabajar con Pandas y estoy tratando de averiguar por qué esta marca de tiempo no se convierte. Como ejemplo, una marca de tiempo individual es la cadena ‘2010-10-06 16:38:02’ . El código se ve así: newdata = pd.DataFrame.from_records(data, columns = [“col1”, “col2”, “col3”, “timestamp”], index = “timestamp”) newdata.index = newdata.index.tz_localize(‘UTC’).tz_convert(‘US/Eastern’) Y […]

¿Cómo agregar correctamente las horas a un pandas.tseries.index.DatetimeIndex?

Tengo un df.index normal que me gustaría agregarle algunas horas. In [1]: test[1].index Out[2]: [2010-03-11, …, 2014-08-14] Length: 52, Freq: None, Timezone: None Así es como se ve el primer elemento: In [1]: test[1].index[0] Out[2]: Timestamp(‘2010-03-11 00:00:00′) Así que bash esto para agregar las horas: In [1]: test[1].index[0] + pd.tseries.timedeltas.to_timedelta(16, unit=’h’) Sin embargo me sale […]

Python: Whoosh parece devolver resultados incorrectos

Este código es directamente de los documentos de inicio rápido de Whoosh: import os.path from whoosh.index import create_in from whoosh.fields import Schema, STORED, ID, KEYWORD, TEXT from whoosh.index import open_dir from whoosh.query import * from whoosh.qparser import QueryParser #establish schema to be used in the index schema = Schema(title=TEXT(stored=True), content=TEXT, path=ID(stored=True), tags=KEYWORD, icon=STORED) #create index […]

La forma más corta de obtener el primer elemento de `OrderedDict` en Python 3

¿Cuál es la forma más corta de obtener el primer artículo de OrderedDict en Python 3? Mi mejor: list(ordered_dict.items())[0] Bastante largo y feo. Puedo pensar en: next(iter(ordered_dict.items())) # Fixed, thanks Ashwini Pero no es muy autodescriptivo. ¿Alguna sugerencia mejor?

Pandas fillna () basado en un atributo de columna específico

Digamos que tengo esta mesa Type | Killed | Survived Dog 5 2 Dog 3 4 Cat 1 7 Dog nan 3 cow nan 2 Falta uno de los valores de Killed para [Type] = Dog . Quiero imputar la media en [Killed] para [Type] = Dog . Mi código es el siguiente: Buscar la […]

pandas – cambia df.index de float64 a unicode o cadena

Quiero cambiar el índice de las ttwigs de datos (filas) de float64 a string o unicode. Pensé que esto funcionaría pero aparentemente no: #check type type(df.index) ‘pandas.core.index.Float64Index’ #change type to unicode if not isinstance(df.index, unicode): df.index = df.index.astype(unicode) mensaje de error: TypeError: Setting dtype to anything other than float64 or object is not supported

Encontrar índice de artículo nested en python

He estado trabajando con algunas matrices relativamente complejas como: array = [ “1”, 2, [“4”, “5”, (“a”, “b”)], (“c”, “d”)] y estaba buscando una manera de encontrar un elemento y recuperarlo es “índice” (¿Está bien referirse a la ubicación del elemento como “a”, que está dentro de una Tupla como índice en el mismo nivel […]

Python `dict` indexado por tupla: Obtención de una porción del pastel

Digamos que tengo my_dict = { (“airport”, “London”): “Heathrow”, (“airport”, “Tokyo”): “Narita”, (“hipsters”, “London”): “Soho” } ¿Qué es una forma eficiente (sin escanear todas las claves), pero elegante para sacar a todos los aeropuertos de este diccionario, es decir, la salida esperada [“Heathrow”, “Narita”] . En las bases de datos que se pueden indexar por […]