Articles of Data

Filtrar y crear una columna basada en la columna de fecha.

Tengo una muestra de datos como a continuación: date Deadline 2018-08-01 2018-08-11 2018-09-18 2018-12-08 2018-12-18 Quiero completar la columna de la fecha límite con las condiciones descritas en el código como “1 DL”, “2 DL”, “3 DL” y así sucesivamente. Creando una nueva columna basada en la columna de fecha en python. Dando un error: […]

Reconocimiento de dígitos simple (en funcionamiento) a mano: ¿cómo mejorarlo?

Acabo de escribir este reconocimiento de dígitos muy simple a mano. Aquí está el archivo de 8kb con el siguiente código + diez archivos de imagen .PNG. Funciona: es bien reconocido como . En resumen, cada dígito de la base de datos (50×50 píxeles = 250 coeficientes) se resume en un vector de 10 coeficientes […]

scipy.optimize.leastsq devuelve los mejores parámetros de conjetura, no el nuevo mejor ajuste

Quiero ajustar un pico lorentziano a un conjunto de datos xey, los datos están bien. Otros progtwigs como OriginLab se ajustan perfectamente, pero quería automatizar el ajuste con python, por lo que tengo el siguiente código que se basa en http://mesa.ac.nz/?page_id=1800 El problema que tengo es que scipy.optimize.leastsq vuelve como el mejor ajuste a los […]

Cambiar o desactivar _FillValues

Quiero desactivar el relleno o cambiar el _FillValue a None / NaN en el archivo NetCDF. ¿Cómo haces esto? He intentado buscarlo y nadie habla de ello. Cuando imprimo una variable como la longitud, esto es lo que obtengo: float32 lons (lons) unidades: grado_east dimensiones ilimitadas: forma actual = (720,) llenado, valor predeterminado _FillValue de […]

Python divide un dataframe de pandas por semana o mes y agrupa los datos en función de estos sp

DateOccurred CostCentre TimeDifference 03/09/2012 2073 28138 03/09/2012 6078 34844 03/09/2012 8273 31215 03/09/2012 8367 28160 03/09/2012 8959 32037 03/09/2012 9292 30118 03/09/2012 9532 34200 03/09/2012 9705 27240 03/09/2012 10085 31431 03/09/2012 10220 22555 04/09/2012 6078 41126 04/09/2012 7569 31101 04/09/2012 8273 30994 04/09/2012 8959 30064 04/09/2012 9532 34655 04/09/2012 9705 26475 04/09/2012 10085 31443 04/09/2012 […]

Ajustar una distribución a un histogtwig

Quiero saber la distribución de mis puntos de datos, así que primero dibujé el histogtwig de mis datos. Mi histogtwig se parece a lo siguiente: Segundo, para ajustarlos a una distribución, aquí está el código que escribí: size = 20000 x = scipy.arange(size) # fit param = scipy.stats.gamma.fit(y) pdf_fitted = scipy.stats.gamma.pdf(x, *param[:-2], loc = param[-2], […]

Estimador de bondad de ajuste de SciPy LeastSq

Tengo una superficie de datos que estoy ajustando usando la función leastsq de SciPy. Me gustaría tener una estimación de la calidad del ajuste después de devoluciones de leastsq . Esperaba que esto se incluyera como un retorno de la función, pero, de ser así, no parece estar claramente documentado. ¿Existe tal devolución o, salvo […]

¿Cómo eliminar varios marcos de datos de pandas (python) de la memoria para guardar RAM?

Tengo muchos marcos de datos creados como parte del preprocesamiento. Como tengo un RAM limitado de 6GB, quiero eliminar todos los marcos de datos innecesarios de la RAM para evitar quedarse sin memoria al ejecutar GRIDSEARCHCV en scikit-learn. 1) ¿Hay una función para listar solamente, todos los marcos de datos cargados actualmente en la memoria? […]

Preprocesamiento de características de variables continuas y categóricas (de tipo entero) con scikit-learn

Los principales objectives son los siguientes: 1) Aplicar StandardScaler a variables continuas 2) Aplicar LabelEncoder y OnehotEncoder a variables categóricas Las variables continuas deben escalarse, pero al mismo tiempo, un par de variables categóricas también son de tipo entero. La aplicación de StandardScaler daría lugar a efectos no deseados. Por otro lado, el StandardScaler escalaría […]

memoria de fotogtwigs de pandas python

Quiero transformar una matriz dispersa (156060×11780) a dataframe pero me sale un error de memoria. Este es mi código. vect = TfidfVectorizer(sublinear_tf=True, analyzer=’word’, stop_words=’english’ , tokenizer=tokenize, strip_accents = ‘ascii’) X = vect.fit_transform(df.pop(‘Phrase’)).toarray() for i, col in enumerate(vect.get_feature_names()): df[col] = X[:, i] Tengo un problema en X = vect.fit_transform(df.pop(‘Phrase’)).toarray() . ¿Cómo puedo resolverlo?