Articles of pandas

Eliminación de valores atípicos de la ttwig de datos pandas usando percentil

Estoy siguiendo este enlace para eliminar valores atípicos, pero algo está lógicamente mal aquí … Eliminar los valores atípicos en Pandas DataFrame usando Percentiles Tengo un conjunto de datos con la primera columna como “id” y la última columna como “etiqueta”. Aquí está mi parte del código que estoy eliminando las columnas de etiqueta e […]

Pandas: ¿cómo obtener los valores únicos de una columna que contiene una lista de valores?

Considere el siguiente dataframe df = pd.DataFrame({‘name’ : [[‘one two’,’three four’], [‘one’],[], [],[‘one two’],[‘three’]], ‘col’ : [‘A’,’B’,’A’,’B’,’A’,’B’]}) df.sort_values(by=’col’,inplace=True) df Out[62]: col name 0 A [one two, three four] 2 A [] 4 A [one two] 1 B [one] 3 B [] 5 B [three] Me gustaría obtener una columna que haga un seguimiento de todas […]

¿Cómo convertir un diccionario de 3 niveles a un formato deseado?

Tengo un diccionario de 3 niveles como este: data={‘2016-11-28’: {‘area1’: {‘am’: -0.007, ‘pm’: 0.008}, ‘area2’: {‘am’: 0.0, ‘pm’: 0.0}, ‘area3’: {‘am’: -0.01, ‘pm’: -0.001}},’2016-11-29′:{‘area1’: {‘am’: -0.007, ‘pm’: 0.008}, ‘area2’: {‘am’: 0.0, ‘pm’: 0.0}, ‘area3’: {‘am’: -0.01, ‘pm’: -0.001}}} Quiero convertirlo en un dataframe, y lo intenté: tickers=data[‘2016-11-28’].keys() iterables=[tickers,[‘am’,’pm’]] index=pd.MultiIndex.from_product(iterables, names=[‘ticker’, ‘time’]) frame=pd.DataFrame(data,index=index) pero tengo 2016-11-28 […]

tput: atributos de terminal: no existe tal dispositivo o dirección en el depurador de Windows Pycharm

Recibo un mensaje rojo cada vez que uso la consola del depurador y trato de ver la salida de un objeto pandas. “tput: terminal attributes: No such device or address” Estoy usando PyCharm 2016.3.2 y, según mi opinión, no actualicé nada, simplemente comenzó a aparecer de repente. Adjunto una captura de pantalla del depurador con […]

Convertir la fecha de la cadena de tiempo a pandas datetime

Soy nuevo en Pandas y Python. Quiero hacer algunas operaciones de fecha y hora en mi script. Recibo información de fecha y hora de un archivo csv en el siguiente formato: 01APR2017 6:59 ¿Cómo convertirlo en formato datetime pandas? Algo como: 2017-04-01 06:59:00

Cuente las apariciones de elementos en Series en cada fila de un DataFrame

Tengo un pandas.DataFrame que se ve así. COL1 COL2 COL3 C1 None None C1 C2 None C1 C1 None C1 C2 C3 Para cada fila en este dataframe, me gustaría contar las ocurrencias de cada uno de C1, C2, C3 y anexar esta información como columnas a este dataframe. Por ejemplo, la primera fila tiene […]

Fusionar marcos de datos de pandas usando la fecha como índice

Estoy tratando de fusionar dos marcos de datos (llámelos df1 y df2) de diferentes longitudes, ambas indexadas por sus fechas. El más largo de los dfs (df1) tiene todas las fechas enumeradas en el más corto de los dos (df2). He intentado combinarlos utilizando el siguiente comando: merged = df2.merge(df1, on=’Date’) , sin embargo, obtengo […]

Pandas reportan top-n en grupo y pivote

Estoy tratando de resumir un dataframe agrupándolos a lo largo de una sola dimensión d1 e informando estadísticas de resumen para cada elemento de d1. En particular, estoy interesado en la n superior (índice y valores) para una serie de métricas. Lo que me gustaría producir es una fila para cada elemento de d1. Digamos […]

Carcaj o púa con un eje de fecha

¿Cuál es la forma estándar de trazar una serie temporal (fechas) de carcaj o barbas? A menudo tengo series temporales en un Data Frame de Pandas y las grapo así: plt.plot(df.index.to_pydatetime(), df.parameter) Esto funciona muy bien, el eje x se puede tratar como fechas genuinas, lo cual es muy conveniente para formatear o configurar el […]

Pandas: Función de suavizado exponencial para columna.

Tengo el siguiente DataFrame con datos de trading: df = pd.DataFrame({ ‘Trader’: ‘Carl Mark Carl Joe Mark Carl Max Max’.split(), ‘Quantity’: [5,2,5,10,1,5,2,1], ‘Date’ : [ DT.datetime(2013,1,1,13,0), DT.datetime(2013,1,1,13,5), DT.datetime(2013,2,5,20,0), DT.datetime(2013,2,6,10,0), DT.datetime(2013,2,8,12,0), DT.datetime(2013,3,7,14,0), DT.datetime(2013,6,4,14,0), DT.datetime(2013,7,4,14,0), ]}) df.index = [df.Date, df.Trader] Espero calcular estadísticas semanales para cada comerciante con los volúmenes de pedidos promedio. Para hacerlo, actualmente estoy […]