Articles of Machine Learning

¿Cómo uso sklearn CountVectorizer con el analizador de ‘palabra’ y ‘char’? – python

¿Cómo uso sklearn CountVectorizer con el analizador de ‘palabra’ y ‘char’? http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html Podría extraer las características de texto por palabra o carácter por separado, pero ¿cómo puedo crear un charword_vectorizer ? ¿Hay alguna manera de combinar los vectorizadores? ¿O usar más de un analizador? >>> from sklearn.feature_extraction.text import CountVectorizer >>> word_vectorizer = CountVectorizer(analyzer=’word’, ngram_range=(1, 2), […]

Calcular la función de distribución acumulativa (CDF) en Python

¿Cómo puedo calcular en Python la función de distribución acumulativa (CDF) ? Quiero calcularlo a partir de una serie de puntos que tengo (distribución discreta), no con las distribuciones continuas que, por ejemplo, tiene scipy.

Preprocesamiento de características de variables continuas y categóricas (de tipo entero) con scikit-learn

Los principales objectives son los siguientes: 1) Aplicar StandardScaler a variables continuas 2) Aplicar LabelEncoder y OnehotEncoder a variables categóricas Las variables continuas deben escalarse, pero al mismo tiempo, un par de variables categóricas también son de tipo entero. La aplicación de StandardScaler daría lugar a efectos no deseados. Por otro lado, el StandardScaler escalaría […]

¿Cuál es el papel de la capa TimeDistributed en Keras?

Estoy tratando de entender lo que hace el envoltorio TimeDistributed en Keras. Obtengo que TimeDistributed “aplica una capa a cada segmento temporal de una entrada”. Pero hice algunos experimentos y obtuve los resultados que no puedo entender. En resumen, en relación con la capa LSTM, TimeDistributed y solo la capa Densa tienen los mismos resultados. […]

Secuencias de eventos, redes neuronales recurrentes, PyBrain

Estoy tratando de predecir la demanda de ventas utilizando redes neuronales recurrentes. aquí https://stackoverflow.com/a/2525149/423805 Se mencionó que las secuencias son compatibles con PyBrain con código de ejemplo. A pesar de que los datos no son exactamente categorías, los modelé como tales para este ejemplo. Los datos están aquí 6 6 6 6 2 6 2 […]

función loc en pandas

¿Alguien puede explicar por qué se usa Loc en pandas de python con ejemplos como los que se muestran a continuación? for i in range(0, 2): for j in range(0, 3): df.loc[(df.Age.isnull()) & (df.Gender == i) & (df.Pclass == j+1), ‘AgeFill’] = median_ages[i,j]

Python: ¿Cómo intuir la palabra de un texto abreviado usando PNL?

Recientemente estuve trabajando en un conjunto de datos que usaba abreviaturas para varias palabras. Por ejemplo, wtrbtl = water bottle bwlingbl = bowling ball bsktball = basketball No parecía haber ninguna consistencia en términos de la convención utilizada, es decir, a veces usaban vocales a veces no. Estoy tratando de construir un objeto de mapeo […]

¿Cómo revertir la transformación sklearn.OneHotEncoder para recuperar datos originales?

sklearn.OneHotEncoder mis datos categóricos usando sklearn.OneHotEncoder y los introduje en un clasificador de bosque aleatorio. Todo parece funcionar y recuperé mi salida predicha. ¿Hay alguna forma de revertir la encoding y convertir mi salida a su estado original?

¿Por qué la neural network simple de 2 capas no puede aprender la secuencia 0,0?

Al pasar por el ejemplo de una pequeña neural network de 2 capas, noté el resultado que no puedo explicar. Imagina que tenemos el siguiente conjunto de datos con las tags correspondientes: [0,1] -> [0] [0,1] -> [0] [1,0] -> [1] [1,0] -> [1] Vamos a crear una pequeña NN de 2 capas que aprenderá […]

Fusionar 2 modelos secuenciales en Keras.

Estoy intentando fusionar 2 modelos secuenciales en keras. Aquí está el código: model1 = Sequential(layers=[ # input layers and convolutional layers Conv1D(128, kernel_size=12, strides=4, padding=’valid’, activation=’relu’, input_shape=input_shape), MaxPooling1D(pool_size=6), Conv1D(256, kernel_size=12, strides=4, padding=’valid’, activation=’relu’), MaxPooling1D(pool_size=6), Dropout(.5), ]) model2 = Sequential(layers=[ # input layers and convolutional layers Conv1D(128, kernel_size=20, strides=5, padding=’valid’, activation=’relu’, input_shape=input_shape), MaxPooling1D(pool_size=5), Conv1D(256, kernel_size=20, strides=5, […]