Articles of datos de los

Número de filas del grupo de conteoBy dentro de un GroupBy entre dos fechas en Pandas Dataframe

Tengo un df dataframe, que se puede crear con el siguiente código: import random from datetime import timedelta import pandas as pd import datetime #create test range of dates rng=pd.date_range(datetime.date(2015,7,15),datetime.date(2015,7,31)) rnglist=rng.tolist() testpts = range(100,121) #create test dataframe d={‘jid’:[i for i in range(100,121)], ‘cid’:[random.randint(1,2) for _ in testpts], ‘ctid’:[random.randint(3,4) for _ in testpts], ‘stdt’:[rnglist[random.randint(0,len(rng))] for _ […]

Dividir la columna en un número desconocido de columnas por las pandas delimitadoras

Estoy tratando de dividir una columna en varias columnas basadas en la separación de coma / espacio. mi dataframe actualmente parece Item Colors 0 ID-1 Red, Blue, Green 1 ID-2 Red, Blue 2 ID-3 Blue, Green 3 ID-4 Blue 4 ID-5 Red Me gustaría transformar la columna ‘Colores’ en rojo, azul y verde de esta […]

Obtener los tres valores más pequeños por fila y devolver los nombres de columna correspondientes

Tengo dos marcos de datos, df y df2, son corresponsales. Ahora, basado en el primer df de datos, quiero obtener los 3 valores más pequeños en una fila y devolver el nombre de la columna correspondiente (en este caso, como “X” o “Y” o “Z” o “T”). Así que puedo obtener el nuevo dataframe df3. […]

¿Cómo reorganizar eficientemente los datos de pandas de la siguiente manera?

Necesito ayuda con una formulación concisa y, en primer lugar, eficiente en pandas de la siguiente operación: Dado un dataframe del formato id abcd 1 0 -1 1 1 42 0 1 0 0 128 1 -1 0 1 Construye un dataframe del formato: id one_entries 1 “cd” 42 “b” 128 “ad” Es decir, la […]

Obtenga todas las celdas del dataframe como tupla de (índice, columna) para pasar a df.apply ()

Quiero obtener el índice y el nombre de columna de cada celda en el dataframe de Pandas. Por ejemplo, en el dataframe generado a partir del código de abajo df = pd.DataFrame({1 : np.arange(1, 6), 2 : np.arange(6, 11), 3 : np.arange(11, 16), 4 : np.arange(16, 21), 5 : np.arange(21, 26)}, index=[1, 2, 3, 4, […]

Agrupe por dos columnas y cuente las ocurrencias de cada combinación en pandas

Tengo el siguiente dataframe: data = pd.DataFrame({‘user_id’ : [‘a1’, ‘a1’, ‘a1’, ‘a2′,’a2′,’a2′,’a3′,’a3′,’a3’], ‘product_id’ : [‘p1′,’p1′,’p2′,’p1′,’p1′,’p1′,’p2′,’p2′,’p3’]}) product_id user_id p1 a1 p1 a1 p2 a1 p1 a2 p1 a2 p1 a2 p2 a3 p2 a3 p3 a3 en el caso real, también podría haber otras columnas, pero lo que debo hacer es agrupar por dataframe por product_id […]

Seleccione una lista de segmentos de un dataframe de múltiples índices / multicolumnas de Pandas

Digamos que tengo el siguiente dataframe de Pandas de varias columnas: arrays = [[‘bar’, ‘bar’, ‘baz’, ‘baz’, ‘foo’, ‘foo’, ], [‘one’, ‘two’, ‘one’, ‘two’, ‘one’, ‘two’, ]] tuples = list(zip(*arrays)) index = pd.MultiIndex.from_tuples(tuples, names=[‘first’, ‘second’]) df = pd.DataFrame(np.random.randn(8, 6), columns=arrays) bar baz foo one two one two one two 0 1.018709 0.295048 -0.735014 1.478292 -0.410116 […]

La mejor manera de subcontratar un dataframe pandas

Hola, soy nuevo en Pandas y acabo de encontrar df.query() . ¿Por qué la gente usaría df.query() cuando puedes filtrar directamente tus Dataframes usando la notación de corchetes? El tutorial oficial de pandas también parece preferir este último enfoque. Con notación entre paréntesis: df[df[‘age’] <= 21] Con el método de consulta pandas: df.query(‘age <= 21') […]

Rolling Conditional Pandas DataFrame Column

¿Cómo podría escribir una condición de balanceo que se aplique a una columna en pandas? import pandas as pd import numpy as np lst = np.random.random_integers(low = -10, high = 10, size = 10) lst2 = np.random.random_integers(low = -10, high = 10, size = 10) #lst = [ -2 10 -10 -6 4 2 -5 […]

cómo dividir los valores en una columna de datos y agregarlos a una nueva columna con una condición en pandas

Tengo un df, name Value Sri is a cricketer Sri,is Ram player Ram Ravi is a singer is cricket and foot is ball and,is,foot y una lista, my_list=[“is”, “foot”] Estoy intentando dividir df [“valor”] por (,) y agregar el valor a una nueva columna si el valor existe en my_list. Mi salida esperada es name […]