Articles of datos de los

Python Pandas reemplazan múltiples columnas cero a Nan

Lista con los atributos de las personas cargadas en pandas dataframe df2 . Para la limpieza quiero reemplazar el valor cero ( 0 o ‘0’ ) por np.nan . df2.dtypes ID object Name object Weight float64 Height float64 BootSize object SuitSize object Type object dtype: object Código de trabajo para establecer el valor cero en […]

Pandas: agrupación y agregación con múltiples funciones.

Situación Tengo un dataframe de pandas definido de la siguiente manera: import pandas as pd headers = [‘Group’, ‘Element’, ‘Case’, ‘Score’, ‘Evaluation’] data = [ [‘A’, 1, ‘x’, 1.40, 0.59], [‘A’, 1, ‘y’, 9.19, 0.52], [‘A’, 2, ‘x’, 8.82, 0.80], [‘A’, 2, ‘y’, 7.18, 0.41], [‘B’, 1, ‘x’, 1.38, 0.22], [‘B’, 1, ‘y’, 7.14, 0.10], […]

Marco de datos de Python Pandas: ¿Normalizar datos entre 0.01 y 0.99?

Estoy tratando de unir cada valor en un dataframe entre 0.01 y 0.99 He normalizado con éxito los datos entre 0 y 1 usando: .apply(lambda x: (x – x.min()) / (x.max() – x.min())) siguiente manera: df = pd.DataFrame({‘one’ : [‘AAL’, ‘AAL’, ‘AAPL’, ‘AAPL’], ‘two’ : [1, 1, 5, 5], ‘three’ : [4,4,2,2]}) df[[‘two’, ‘three’]].apply(lambda x: […]

Pandas de Python: excluye filas por debajo de un cierto conteo de frecuencia

Así que tengo un DataFrame de pandas que se ve así: r vals positions 1.2 1 1.8 2 2.3 1 1.8 1 2.1 3 2.0 3 1.9 1 … … Me gustaría filtrar todas las filas por posición que no aparezcan al menos 20 veces. He visto algo como esto g=df.groupby(‘positions’) g.filter(lambda x: len(x) > […]

División de varias columnas en un delimitador en filas en el dataframe de pandas

Tengo un dataframe de pandas como se muestra aquí: id pos value sent 1 a/b/c test/test2/test3 21 2 d/a test/test5 21 Me gustaría dividir (= explotar) df[‘pos’] y df[‘token’] para que el dataframe se vea así: id pos value sent 1 a test 21 1 b test2 21 1 c test3 21 2 d test […]

P: Cómo asignar de manera eficiente una identificación única a personas con múltiples entradas basadas en el nombre en df muy grande

Me gustaría tomar un conjunto de datos con un grupo de diferentes individuos únicos, cada uno con múltiples entradas, y asignar a cada individuo una identificación única para todas sus entradas. Aquí hay un ejemplo de la df: FirstName LastName id 0 Tom Jones 1 1 Tom Jones 1 2 David Smith 1 3 Alex […]

Filtrado de Pandas Dataframe usando la instrucción OR

Tengo un dataframe de pandas y quiero filtrar todo el df en función del valor de dos columnas en el dataframe. ¡Quiero recuperar todas las filas y columnas donde IBRD o IMF! = 0. alldata_balance = alldata[(alldata[IBRD] !=0) or (alldata[IMF] !=0)] pero esto me da un ValueError ValueError: El valor de verdad de una serie […]

Reemplazar valores numéricos en un dataframe de pandas

Problema : Dataframe contaminado. Detalles: El marco consta de valores de cadena NaNs que conozco el significado y los valores numéricos. Tarea : Reemplazar los valores numéricos con NaNs Ejemplo import numpy as np import pandas as pd df = pd.DataFrame([[‘abc’, ‘cdf’, 1], [‘k’, ‘sum’, ‘some’], [1000, np.nan, ‘nothing’]]) afuera: 0 1 2 0 abc […]

Cortar múltiples rangos de columnas con Pandas

Supongamos que tengo 20 columnas en un conjunto de datos y quiero usar 19 como entrada. y las columnas de entrada son columnas de 1:10 y 12: 20 y quiero usar la columna 11 como salida. Entonces, ¿cómo dar este tipo de rango utilizando pandas? por ejemplo: Ejemplo de conjunto de datos considera que los […]

cómo agregar dos o más marcos de datos en pandas y hacer un análisis

Tengo 3 df’s df1=pd.DataFrame({“Name”:[“one”,”two”,”three”],”value”:[4,5,6]}) df2=pd.DataFrame({“Name”:[“four”,”one”,”three”],”value”:[8,6,2]}) df3=pd.DataFrame({“Name”:[“one”,”four”,”six”],”value”:[1,1,1]}) Puedo agregar uno por uno, pero quiero agregar los tres marcos de datos a la vez y hacer un análisis. Estoy tratando de contar el nombre que contiene la cantidad de marcos de datos divididos por el total de marcos de datos name present in dataframes/total dataframes Mi salida […]