Articles of pca

Uso de Numpy (np.linalg.svd) para la descomposición del valor singular

Estoy leyendo Abdi & Williams (2010) “Análisis de componentes principales”, y estoy intentando rehacer la SVD para obtener valores para una PCA adicional. El artículo establece que siguiendo la SVD: X = PDQ ^ t Cargo mis datos en un np.array X. X = np.array(data) P, D, Q = np.linalg.svd(X, full_matrices=False) D = np.diag(D) Pero […]

Dimensión de los datos antes y después de realizar PCA.

Estoy intentando la competencia de reconocimiento de dígitos de kaggle.com usando Python y scikit-learn. Después de eliminar las tags de los datos de entrenamiento, agrego cada fila en CSV en una lista como esta: for row in csv: train_data.append(np.array(np.int64(row))) Hago lo mismo para los datos de prueba. Preproceso estos datos con PCA para realizar una […]

Realización de PCA en matriz dispersa grande utilizando sklearn

Estoy tratando de aplicar PCA en una matriz dispersa enorme, en el siguiente enlace dice que el PCA aleatorio de sklearn puede manejar una matriz dispersa de formato disperso escéptico. Aplicar PCA en matriz dispersa muy grande. Sin embargo, siempre me da error. ¿Alguien puede señalar lo que estoy haciendo mal? La matriz de entrada […]

Cargas factoriales utilizando sklearn

Quiero las correlaciones entre variables individuales y componentes principales en python. Estoy usando PCA en sklearn. No entiendo cómo puedo obtener la matriz de carga después de haber descompuesto mis datos. Mi código está aquí. iris = load_iris() data, y = iris.data, iris.target pca = PCA(n_components=2) transformed_data = pca.fit(data).transform(data) eigenValues = pca.explained_variance_ratio_ http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html no menciona […]

Python scikit learn pca.explained_variance_ratio_ cutoff

Gurú, Al elegir el número de componentes principales (k), elegimos k para que sea el valor más pequeño de modo que, por ejemplo, se retenga el 99% de la varianza. Sin embargo, en el estudio de Python Scikit, no estoy 100% seguro de que pca.explained_variance_ratio_ = 0.99 sea igual a “99% de la variación se […]

Obtener valores propios y vectores de sklearn PCA

¿Cómo puedo obtener los valores propios y los vectores propios de la aplicación PCA? from sklearn.decomposition import PCA clf=PCA(0.98,whiten=True) #converse 98% variance X_train=clf.fit_transform(X_train) X_test=clf.transform(X_test) No lo encuentro en los documentos . 1. No puedo “comprender” los diferentes resultados aquí. Editar : def pca_code(data): #raw_implementation var_per=.98 data-=np.mean(data, axis=0) data/=np.std(data, axis=0) cov_mat=np.cov(data, rowvar=False) evals, evecs = np.linalg.eigh(cov_mat) […]

Cómo utilizar el PCA de scikit-learn para reducir las funciones y saber qué funciones se descartan

Estoy intentando ejecutar un PCA en una matriz de dimensiones mxn donde m es el número de características y n el número de muestras. Supongamos que quiero conservar las características nf con la varianza máxima. Con scikit-learn puedo hacerlo de esta manera: from sklearn.decomposition import PCA nf = 100 pca = PCA(n_components=nf) # X is […]

Reconocimiento facial – Python

Estoy intentando hacer un reconocimiento facial mediante el análisis de componentes principales (PCA) utilizando python. Ahora puedo obtener la distancia euclidiana mínima entre las imágenes de las images entrenamiento y la imagen de entrada input_image . Aquí está mi código: import os from PIL import Image import numpy as np import glob import numpy.linalg as […]

OpenCV PCA Compute en Python

Estoy cargando un conjunto de imágenes de prueba a través de OpenCV (en Python) que tienen un tamaño de 128×128, las vuelve a formar en vectores (1, 128×128) y las pongo todas juntas en una matriz para calcular el PCA. Estoy usando las nuevas bibliotecas cv2 … El código: import os import cv2 as cv […]

Encontrar la dimensión con mayor variación usando PCA con scikit-learn

Necesito usar pca para identificar las dimensiones con la varianza más alta de un determinado conjunto de datos. Estoy usando el pca de scikit-learn para hacerlo, pero no puedo identificar a partir de la salida del método pca cuáles son los componentes de mis datos con la varianza más alta. Tenga en cuenta que no […]