Articles of dataframe

Mantener la misma variable ficticia en los datos de entrenamiento y pruebas.

Estoy construyendo un modelo de predicción en python con dos conjuntos de pruebas y entrenamiento separados. Los datos de entrenamiento contienen variables categóricas de tipo numérico, por ejemplo, código postal, [91521,23151,12355, …], y también variables categóricas de cadenas, por ejemplo, ciudad [‘Chicago’, ‘Nueva York’, ‘Los Ángeles’, …]. Para entrenar los datos, primero uso los ‘pd.get_dummies’ […]

Pandas rodando ventana para devolver una matriz

Aquí hay un código de ejemplo. df = pd.DataFrame(np.random.randn(10, 2), columns=list(‘AB’)) df[‘C’] = df.B.rolling(window=3) Salida: ABC 0 -0.108897 1.877987 Rolling [window=3,center=False,axis=0] 1 -1.276055 -0.424382 Rolling [window=3,center=False,axis=0] 2 1.578561 -1.094649 Rolling [window=3,center=False,axis=0] 3 -0.443294 1.683261 Rolling [window=3,center=False,axis=0] 4 0.674124 0.281077 Rolling [window=3,center=False,axis=0] 5 0.587773 0.697557 Rolling [window=3,center=False,axis=0] 6 -0.258038 -1.230902 Rolling [window=3,center=False,axis=0] 7 -0.443269 0.647107 Rolling […]

¿Cómo iterar sobre niveles MultiIndex en Pandas?

A menudo tengo índices MultiIndex y me gustaría recorrer grupos en los que los índices de nivel superior son iguales. Básicamente se parece a from random import choice import pandas as pd N = 100 df = pd.DataFrame([choice([1, 2, 3]) for _ in range(N)], columns=[“A”], index=pd.MultiIndex.from_tuples([(choice(“ab”), choice(“cd”), choice(“de”)) for _ in range(N)])) for idx in […]

Cuadro de datos de pandas agrupado por plot

Tengo un dataframe que se estructura como: Date ticker adj_close 0 2016-11-21 AAPL 111.730 1 2016-11-22 AAPL 111.800 2 2016-11-23 AAPL 111.230 3 2016-11-25 AAPL 111.790 4 2016-11-28 AAPL 111.570 … 8 2016-11-21 ACN 119.680 9 2016-11-22 ACN 119.480 10 2016-11-23 ACN 119.820 11 2016-11-25 ACN 120.740 … ¿Cómo puedo trazar en función del ticker […]

Python Pandas: ¿Cómo reemplazar un personaje en una columna de un dataframe?

Tengo una columna en mi dataframe como esta: range (2,30) (50,290) (400,1000) … y quiero reemplazar el guión ‘,’ con ‘-‘. Actualmente estoy usando este método pero nada ha cambiado. org_info_exc[‘range’].replace(‘,’,’-‘,inplace=True) ¿Alguien puede ayudar?

Python – pandas – Anexar series en un dataframe en blanco

Digamos que tengo dos series de pandas en python: import pandas as pd h = pd.Series([‘g’,4,2,1,1]) g = pd.Series([1,6,5,4,”abc”]) Puedo crear un DataFrame con solo h y luego agregarle g: df = pd.DataFrame([h]) df1 = df.append(g, ignore_index=True) Yo obtengo: >>> df1 0 1 2 3 4 0 g 4 2 1 1 1 1 6 […]

pandas.factorize en un dataframe completo

pandas.factorize codifica valores de entrada como un tipo enumerado o variable categórica. Pero, ¿cómo puedo convertir de forma fácil y eficiente muchas columnas de un dataframe? ¿Qué pasa con el paso de mapeo inverso? Ejemplo: este dataframe contiene columnas con valores de cadena como “tipo 2” que me gustaría convertir a valores numéricos, y posiblemente […]

pyspark: Convertir DataFrame a RDD

Me gustaría convertir pyspark.sql.dataframe.DataFrame a pyspark.rdd.RDD[String] He convertido un df DataFrame a data RDD: data = df.rdd type (data) ## pyspark.rdd.RDD los nuevos data RDD contienen Row first = data.first() type(first) ## pyspark.sql.types.Row data.first() Row(_c0=u’aaa’, _c1=u’bbb’, _c2=u’ccc’, _c3=u’ddd’) Me gustaría convertir Row a lista de String , como el ejemplo a continuación: u’aaa’,u’bbb’,u’ccc’,u’ddd’ Gracias

¿Cómo convertir las hojas de cálculo de OpenDocument en un dataframe de pandas?

Los pandas de la biblioteca de Python pueden leer hojas de cálculo de Excel y convertirlas en un pandas.DataFrame con pandas.read_excel(file) . Bajo el capó, utiliza una biblioteca xlrd que no admite archivos ods. ¿Hay un equivalente de pandas.read_excel para archivos ods? De lo contrario, ¿cómo puedo hacer lo mismo con una hoja de cálculo […]

Filtrar la columna del dataframe Pyspark con el valor Ninguno

Estoy tratando de filtrar un dataframe de PySpark que tiene None como valor de fila: df.select(‘dt_mvmt’).distinct().collect() [Row(dt_mvmt=u’2016-03-27′), Row(dt_mvmt=u’2016-03-28′), Row(dt_mvmt=u’2016-03-29′), Row(dt_mvmt=None), Row(dt_mvmt=u’2016-03-30′), Row(dt_mvmt=u’2016-03-31′)] y puedo filtrar correctamente con un valor de cadena: df[df.dt_mvmt == ‘2016-03-31’] # some results here pero esto falla df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Pero definitivamente hay valores en cada […]