Articles of DataFrame de

Seleccionando por multiindex

Tengo dos marcos de datos df_a = pd.DataFrame(data=[[‘A’, ‘B’, ‘C’], [‘A1’, ‘B1’, ‘C1’]], columns=[‘first’, ‘secound’, ‘third’]) df_a.set_index([‘first’, ‘secound’], inplace=True) df_b = pd.DataFrame(data=[[‘A’, ‘B’, 12], [‘A’, ‘B’, 143], [‘C1’, ‘C1’, 11]], columns=[‘first’, ‘secound’, ‘data’]) df_b.set_index([‘first’, ‘secound’], inplace=True) third first secound ABC A1 B1 C1 data first secound AB 12 B 143 C1 C1 11 Cómo puedo […]

Rellenar una “matriz de recuento” con combinaciones de filas de DataFrame de pandas

Digamos que tengo el siguiente DataFrame de pandas en Python3.x import pandas as pd dict1 = {‘name’:[‘dog’, ‘dog’, ‘cat’, ‘cat’, ‘cat’, ‘bird’, ‘bird’, ‘bird’, ‘bird’], ‘number’:[42, 42, 42, 42, 42, 42, 42, 42, 42], ‘count’:[1, 2, 4, 5, 7, 1, 2, 5, 8]} df = pd.DataFrame(dict1) print(df) ## name number count ## 0 dog 42 […]

¿Cómo lees en un dataframe con listas usando pd.read_clipboard?

Aquí hay algunos datos de otra pregunta : positive negative neutral 1 [marvel, moral, bold, destiny] [] [view, should] 2 [beautiful] [complicated, need] [] 3 [celebrate] [crippling, addiction] [big] Lo primero que haría es agregar citas en todas las palabras y luego: import ast df = pd.read_clipboard(sep=’\s{2,}’) df = df.applymap(ast.literal_eval) ¿Hay una manera más inteligente […]

Cortar un dataframe Dask

Tengo el siguiente código donde me gusta hacer una división de prueba / tren en un dataframe Dask df = dd.read_csv(csv_filename, sep=’,’, encoding=”latin-1″, names=cols, header=0, dtype=’str’) Pero cuando trato de hacer rebanadas como for train, test in cv.split(X, y): df.fit(X[train], y[train]) falla con el error KeyError: ‘[11639 11641 11642 …, 34997 34998 34999] not in […]

Python – Cómo convertir un archivo JSON a Dataframe

¿Cómo puedo convertir un archivo JSON como tal en un dataframe para hacer algunas transformaciones? Por ejemplo, si el archivo JSON lee: {“FirstName”:”John”, “LastName”:”Mark”, “MiddleName”:”Lewis”, “username”:”johnlewis2″, “password”:”2910″} ¿Cómo puedo convertirlo en una tabla como tal? Column -> FirstName | LastName | MiddleName | username | password Row —–> John | Mark |Lewis | johnlewis2 |2910

Reemplazo del dataframe de Pandas con expresiones regulares no funciona

Tengo dataframe con muchas filas. Quiero usar pd.replace para reemplazar valores en columnas enteras. import pandas as pd import re list = [‘MD 15241’, ‘MD’, ‘TD’, ‘TD 15487′] a = pd.DataFrame(list) b = a.copy() b.replace(r'[AZ]{2}’, ‘USA’, inplace = True) b salida 0 0 MD 15241 1 MD 2 TD 3 TD 15487 Intenté r’MD ‘o […]

Aritmética de columnas en el dataframe de pandas usando fechas

Creo que esto debería ser fácil, pero estoy golpeando un poco una pared. Tengo un conjunto de datos que se importó en un dataframe de pandas desde un archivo Stata .dta. Varias de las columnas contienen datos de fecha. El dataframe contiene más de 100,000 filas pero se da una muestra: cat event_date total 0 […]

suelte las filas de objetos que no sean json de la columna del dataframe de Python

Tengo un dataframe tal que la columna contiene tanto objetos json como cadenas. Quiero deshacerme de las filas que no contienen objetos json. A continuación se muestra cómo se ve mi dataframe: import pandas as pd df = pd.DataFrame({‘A’: [“hello”,”world”,{“a”:5,”b”:6,”c”:8},”usa”,”india”,{“a”:9,”b”:10,”c”:11}]}) print(df) ¿Cómo debo eliminar las filas que contienen solo cadenas, de modo que después de […]

¿Cómo maneja los nombres de columna que tienen espacios en ellos cuando usa pd.read_clipboard?

Este es un problema real que he enfrentado durante mucho tiempo. Toma este dataframe: AB THRESHOLD NaN NaN NaN -0.041158 -0.161571 0.329038 0.238156 0.525878 0.110370 0.606738 0.854177 -0.095147 0.200166 0.385453 0.166235 Es bastante fácil de copiar usando pd.read_clipboard . Sin embargo, si uno de los nombres de columna tiene un espacio: AB Col #3 NaN […]

¿Cómo generar JSON jerárquico de n niveles desde pandas DataFrame?

¿Existe una forma eficiente de crear JSON jerárquicos (n-niveles profundos) donde los valores principales son las claves y no la etiqueta de la variable? es decir: {“2017-12-31”: {“Junior”: {“Electronics”: {“A”: {“sales”: 0.440755 } }, {“B”: {“sales”: -3.230951 } } }, …etc… }, …etc… }, …etc… 1. Mi DataFrame de prueba: colIndex=pd.MultiIndex.from_product([[‘New York’,’Paris’], [‘Electronics’,’Household’], [‘A’,’B’,’C’], [‘Junior’,’Senior’]], […]