Articles of fotogtwigs de

pandas groupby cayendo columnas

Estoy haciendo un grupo simple por operación, tratando de comparar medios de grupo. Como puede ver a continuación, he seleccionado columnas específicas de un dataframe más grande, del cual se han eliminado todos los valores faltantes. Pero cuando me agrupo, estoy perdiendo un par de columnas: Nunca me he encontrado con pandas, y no encuentro […]

Pandas: ¿cómo convertir una celda con múltiples valores en múltiples filas?

Tengo un DataFrame como este: Name asn count Org1 asn1,asn2 1 org2 asn3 2 org3 asn4,asn5 5 Me gustaría convertir mi DataFrame para que se vea así: Name asn count Org1 asn1 1 Org1 asn2 1 org2 asn3 2 org3 asn4 5 Org3 asn5 5 Sé que usé el siguiente código para hacerlo con dos […]

¿Por qué los statsmodels no pueden reproducir los resultados de la regresión logística R?

Estoy confundido acerca de por qué mis modelos de regresión logística en R y statsmodels no están de acuerdo. Si preparo algunos datos en R con # From https://courses.edx.org/c4x/MITx/15.071x/asset/census.csv library(caTools) # for sample.split census = read.csv(“census.csv”) set.seed(2000) split = sample.split(census$over50k, SplitRatio = 0.6) censusTrain = subset(census, split==TRUE) censusTest = subset(census, split==FALSE) y luego ejecutar una […]

pandas reindexar DataFrame con objetos de fecha y hora

¿Es posible reindexar un DataFrame pandas usando una columna formada por objetos de fecha y hora? Tengo un DataFrame df con las siguientes columnas: Int64Index: 19610 entries, 0 to 19609 Data columns: cntr 19610 non-null values #int datflt 19610 non-null values #float dtstamp 19610 non-null values #datetime object DOYtimestamp 19610 non-null values #float dtypes: int64(1), […]

Python pandas: rellena una fila de fotogtwigs por fila

La tarea simple de agregar una fila a un objeto pandas.DataFrame parece ser difícil de lograr. Hay 3 preguntas de stackoverflow relacionadas con esto, ninguna de las cuales da una respuesta de trabajo. Esto es lo que estoy tratando de hacer. Tengo un DataFrame del que ya conozco la forma, así como los nombres de […]

¿Cómo puedo combinar varios marcos de datos de pandas en una columna determinada sin ‘pandas.merge’?

A menudo me encuentro con varios marcos de datos de pandas en el siguiente formulario: import pandas as pd df1 = pd.read_table(‘filename1.dat’) df2 = pd.read_table(‘filename2.dat’) df3 = pd.read_table(‘filename3.dat’) print(df1) columnA first_values name1 342 name2 822 name3 121 name4 3434 print(df2) columnA second_values name1 8 name2 1 name3 1 name4 2 print(df3) columnA third_values name1 910 […]

¿Cómo reiniciar el cumsum después del cambio en el signo de los valores?

In [46]: d = np.random.randn(10, 1) * 2 In [47]: df = pd.DataFrame(d.astype(int), columns=[‘data’]) Estoy tratando de crear una columna cumsum donde debería restablecerse después de un cambio de signo en la columna de datos, como este data custom_cumsum 0 -2 -2 1 -1 -3 2 1 1 3 -3 -3 4 -1 -4 5 […]

PySpark: org.apache.spark.sql.AnalysisException: El nombre del atributo … contiene caracteres no válidos entre “,; {} () \ n \ t =”. Por favor use un alias para renombrarlo

Estoy tratando de cargar datos de parquet en PySpark , donde una columna tiene un espacio en el nombre: df = spark.read.parquet(‘my_parquet_dump’) df.select(df[‘Foo Bar’].alias(‘foobar’)) A pesar de que tengo un alias en la columna, todavía recibo este error y la propagación del error desde el lado de JVM de PySpark . He adjuntado el rastro […]

promediando cada cinco minutos los datos como un punto de datos en el dataframe de pandas

Tengo un Dataframe en Pandas como este 1. 2013-10-09 09:00:05 2. 2013-10-09 09:01:00 3. 2013-10-09 09:02:00 4. ………… 5. ………… 6. ………… 7. 2013-10-10 09:15:05 8. 2013-10-10 09:16:00 9. 2013-10-10 09:17:00 Me gustaría reducir el tamaño del Dataframe promediando cada 5 minutos de datos y formando 1 punto de datos para ello. 1. 2013-10-09 09:05:00 […]

Eliminando espacio en dataframe python

Recibo un error en mi código porque intenté hacer un dataframe llamando a un elemento desde un csv. Tengo dos columnas a las que llamo desde un archivo: CompanyName y QualityIssue. Hay tres tipos de problemas de calidad: Calidad del equipo, Usuario y Ninguno. Me encuentro con problemas tratando de hacer un df de dataframe. […]