Resta la media de la imagen

Estoy implementando un CNN con Theano. En el papel, tengo que hacer este preprocesamiento de imagen antes de entrenar a la CNN.

We extracted RGB patches of 61x61 dimensions associated with each poselet activation, subtracted the mean and used this data to train the convnet model shown in Table 1 

¿Puedes decirme qué significa “restar la media”? Dígame si estos pasos son correctos (es lo que entendí) 1) Calcule la media para Red Channel, Green Channel y Blue Channel para la imagen completa 2) Para cada píxel, reste del valor rojo la media del canal rojo, del verde valore la media del canal verde y lo mismo para el canal azul 3) ¿Es correcto tener un valor negativo o uso los abdominales?

¡¡Gracias a todos!!

Debe leer el documento con cuidado, pero lo más probable es que signifiquen la media de los parches , por lo que tiene N matrices 61x61 píxeles, que es equivalente a un vector de longitud 61^2 (si hay tres canales, entonces 3*61^2 ). Lo que hacen: simplemente calculan la media de cada dimensión, por lo que calculan la media sobre estos vectores N con respecto a cada una de las 3*61^2 dimensiones. Como resultado, obtienen un vector medio de longitud 3*61^2 (o matriz media / parche medio si lo prefiere) y lo restan de todos estos N parches. Los parches resultantes tendrán valores negativos, está perfectamente bien, no debe tomar valores abs, las redes neuronales prefieren este tipo de datos.

Supongo que la media mencionada en el documento es la media de todas las imágenes utilizadas en el conjunto de entrenamiento (calculada por separado para cada canal).

Varias indicaciones:

Esto es, por supuesto, solo evidencia indirecta, ya que no puedo explicar por qué sucede esto. De hecho, me tropecé con esta pregunta mientras trataba de entender precisamente eso.

//EDITAR:

Mientras tanto, encontré una fuente que confirmaba mi reclamo (resaltado por mí):

Hay tres formas comunes de datos que preprocesan una matriz de datos X […]

La resta media es la forma más común de preprocesamiento. Implica restar la media a través de cada característica individual en los datos , y tiene la interpretación geométrica de centrar la nube de datos alrededor del origen a lo largo de cada dimensión. En números, esta operación se implementaría como: X – = np.mean (X, eje = 0). Con las imágenes específicamente, por conveniencia, puede ser común restar un solo valor de todos los píxeles (por ejemplo, X – = np.mean (X) ), o hacerlo por separado a través de los tres canales de color.

Como podemos ver, todos los datos se utilizan para calcular la media.