Articles of datos de los

Eliminar duplicados ignorando mayúsculas y minúsculas y agregar los siguientes valores de columna con el primero en el dataframe de pandas en Python

Tengo un df, Name Count Ram 1 ram 2 raM 1 Arjun 3 arjun 4 Mi salida deseada df, Name Count Ram 4 Arjun 7 Intenté Groupby pero no puedo lograr el resultado deseado, por favor ayuda

Eliminar filas de DataFrame en Pandas según el valor de la columna: varios valores para eliminar

Tengo una lista de valores (no conocidos de antemano, en una lista de Python) que una columna en mi Panda DataFrame no debe tener para todas las filas. Todas las recetas en la Web (como esta ) muestran cómo hacerlo con un solo valor para excluir, pero tengo varios valores para excluir. ¿Cómo lo hago? […]

Python Pandas reemplazan múltiples columnas cero a Nan

Lista con los atributos de las personas cargadas en pandas dataframe df2 . Para la limpieza quiero reemplazar el valor cero ( 0 o ‘0’ ) por np.nan . df2.dtypes ID object Name object Weight float64 Height float64 BootSize object SuitSize object Type object dtype: object Código de trabajo para establecer el valor cero en […]

Pandas: agrupación y agregación con múltiples funciones.

Situación Tengo un dataframe de pandas definido de la siguiente manera: import pandas as pd headers = [‘Group’, ‘Element’, ‘Case’, ‘Score’, ‘Evaluation’] data = [ [‘A’, 1, ‘x’, 1.40, 0.59], [‘A’, 1, ‘y’, 9.19, 0.52], [‘A’, 2, ‘x’, 8.82, 0.80], [‘A’, 2, ‘y’, 7.18, 0.41], [‘B’, 1, ‘x’, 1.38, 0.22], [‘B’, 1, ‘y’, 7.14, 0.10], […]

Marco de datos de Python Pandas: ¿Normalizar datos entre 0.01 y 0.99?

Estoy tratando de unir cada valor en un dataframe entre 0.01 y 0.99 He normalizado con éxito los datos entre 0 y 1 usando: .apply(lambda x: (x – x.min()) / (x.max() – x.min())) siguiente manera: df = pd.DataFrame({‘one’ : [‘AAL’, ‘AAL’, ‘AAPL’, ‘AAPL’], ‘two’ : [1, 1, 5, 5], ‘three’ : [4,4,2,2]}) df[[‘two’, ‘three’]].apply(lambda x: […]

Pandas de Python: excluye filas por debajo de un cierto conteo de frecuencia

Así que tengo un DataFrame de pandas que se ve así: r vals positions 1.2 1 1.8 2 2.3 1 1.8 1 2.1 3 2.0 3 1.9 1 … … Me gustaría filtrar todas las filas por posición que no aparezcan al menos 20 veces. He visto algo como esto g=df.groupby(‘positions’) g.filter(lambda x: len(x) > […]

División de varias columnas en un delimitador en filas en el dataframe de pandas

Tengo un dataframe de pandas como se muestra aquí: id pos value sent 1 a/b/c test/test2/test3 21 2 d/a test/test5 21 Me gustaría dividir (= explotar) df[‘pos’] y df[‘token’] para que el dataframe se vea así: id pos value sent 1 a test 21 1 b test2 21 1 c test3 21 2 d test […]

P: Cómo asignar de manera eficiente una identificación única a personas con múltiples entradas basadas en el nombre en df muy grande

Me gustaría tomar un conjunto de datos con un grupo de diferentes individuos únicos, cada uno con múltiples entradas, y asignar a cada individuo una identificación única para todas sus entradas. Aquí hay un ejemplo de la df: FirstName LastName id 0 Tom Jones 1 1 Tom Jones 1 2 David Smith 1 3 Alex […]

Filtrado de Pandas Dataframe usando la instrucción OR

Tengo un dataframe de pandas y quiero filtrar todo el df en función del valor de dos columnas en el dataframe. ¡Quiero recuperar todas las filas y columnas donde IBRD o IMF! = 0. alldata_balance = alldata[(alldata[IBRD] !=0) or (alldata[IMF] !=0)] pero esto me da un ValueError ValueError: El valor de verdad de una serie […]

Reemplazar valores numéricos en un dataframe de pandas

Problema : Dataframe contaminado. Detalles: El marco consta de valores de cadena NaNs que conozco el significado y los valores numéricos. Tarea : Reemplazar los valores numéricos con NaNs Ejemplo import numpy as np import pandas as pd df = pd.DataFrame([[‘abc’, ‘cdf’, 1], [‘k’, ‘sum’, ‘some’], [1000, np.nan, ‘nothing’]]) afuera: 0 1 2 0 abc […]