Articles of nan

Las pandas reemplazan a nan con el valor medio para una agrupación dada

Tengo un gran conjunto de datos de la forma: period_id gic_subindustry_id operating_mgn_fym5 operating_mgn_fym4 317 201509 25101010 13.348150 11.745965 682 201509 20101010 10.228725 10.473917 903 201509 20101010 NaN 17.700966 1057 201509 50101010 27.858305 28.378040 1222 201509 25502020 15.598956 11.658813 2195 201508 25502020 27.688324 22.969760 2439 201508 45202020 NaN 27.145216 2946 201508 45102020 17.956425 18.327724 En la […]

python nan! = nan

Python 2.7.3 (default, Aug 1 2012, 05:14:39) [GCC 4.6.3] on linux2 Type “help”, “copyright”, “credits” or “license” for more information. >>> x = float(‘nan’) >>> id(x) == id(x) True >>> x == x False Estoy interesado en cómo nan != nan en python. Y solo para aclarar, sé que se supone que nan debe comportarse […]

¿Hay una mejor manera de hacer que numpy.argmin () ignore los valores de NaN?

Quiero obtener el índice del valor mínimo de una matriz numpy que contiene NaN y los quiero ignorar >>> a = array([ nan, 2.5, 3., nan, 4., 5.]) >>> a array([ NaN, 2.5, 3. , NaN, 4. , 5. ]) si ejecuto argmin, devuelve el índice del primer NaN >>> a.argmin() 0 Sustituyo NaNs con […]

pandas concat genera valores nan

Tengo curiosidad de por qué una simple concatenación de dos marcos de datos en pandas: shape: (66441, 1) dtypes: prediction int64 dtype: object isnull().sum(): prediction 0 dtype: int64 shape: (66441, 1) CUSTOMER_ID int64 dtype: object isnull().sum() CUSTOMER_ID 0 dtype: int64 De la misma forma y ambos sin valores NaN. foo = pd.concat([initId, ypred], join=’outer’, axis=1) […]

¿Por qué puede itertools.groupby group las NaN en listas pero no en matrices numpy?

Estoy teniendo dificultades para depurar un problema en el que el float nan en una list y nan en un numpy.array se manejan de manera diferente cuando se usan en itertools.groupby : Dada la siguiente lista y matriz: from itertools import groupby import numpy as np lst = [np.nan, np.nan, np.nan, 0.16, 1, 0.16, 0.9999, […]

¿Comparando pandas Series por la igualdad cuando contienen nan?

Mi aplicación necesita comparar instancias de la serie que a veces contienen nans. Eso hace que la comparación ordinaria con == falle, ya que nan != nan : import numpy as np from pandas import Series s1 = Series([1,np.nan]) s2 = Series([1,np.nan]) >>> (Series([1, nan]) == Series([1, nan])).all() False ¿Cuál es la forma correcta de […]

Python: valor de NaN en Pandas para un solo valor

Solo quiero comprobar si una sola celda en la serie Pandas es nula o no. Es decir, me gustaría comprobar si un valor es NaN . Todas las demás respuestas son para series y matrices, pero no para un solo valor. He intentado pandas.notnull , pandas.isnull , numpy.isnan . ¿Hay una solución para un solo […]

Rellene los datos de pandas faltantes con el valor no faltante anterior, agrupados por clave

Estoy tratando con pandas DataFrames como esto: id x 0 1 10 1 1 20 2 2 100 3 2 200 4 1 NaN 5 2 NaN 6 1 300 7 1 NaN Me gustaría reemplazar cada NAN ‘x’ con la anterior ‘N’ no NAN de una fila con el mismo valor ‘id’: id x […]

clasificadores en scikit-learn que manejan nan / null

Me preguntaba si hay clasificadores que manejan valores nanos / nulos en scikit-learn. Pensé que el regresor de bosques aleatorio se encarga de esto, pero recibí un error cuando llamé a predict . X_train = np.array([[1, np.nan, 3],[np.nan, 5, 6]]) y_train = np.array([1, 2]) clf = RandomForestRegressor(X_train, y_train) X_test = np.array([7, 8, np.nan]) y_pred = […]

¿Cómo puedo encontrar: es el primer valor no NaN en cada columna el máximo para esa columna en un DataFrame?

Por ejemplo: 0 1 0 87.0 NaN 1 NaN 99.0 2 NaN NaN 3 NaN NaN 4 NaN 66.0 5 NaN NaN 6 NaN 77.0 7 NaN NaN 8 NaN NaN 9 88.0 NaN Mi resultado esperado es: [False, True] ya que 87 es el primer valor! NaN pero no el máximo en la columna […]