scipy.io.loadmat estructuras anidadas (es decir, diccionarios)

Usando las rutinas dadas (cómo cargar los archivos .mat de Matlab con scipy), no pude acceder a estructuras anidadas más profundas para recuperarlas en diccionarios

Para presentar el problema que me encuentro con más detalle, doy el siguiente ejemplo de juguete:

load scipy.io as spio a = {'b':{'c':{'d': 3}}} # my dictionary: a['b']['c']['d'] = 3 spio.savemat('xy.mat',a) 

Ahora quiero leer el archivo mat en python. Intenté lo siguiente:

 vig=spio.loadmat('xy.mat',squeeze_me=True) 

Si ahora quiero acceder a los campos que obtengo:

 >> vig['b'] array(((array(3),),), dtype=[('c', '|O8')]) >> vig['b']['c'] array(array((3,), dtype=[('d', '|O8')]), dtype=object) >> vig['b']['c']['d'] --------------------------------------------------------------------------- ValueError Traceback (most recent call last) / in () ValueError: field named d not found. 

Sin embargo, al usar la opción struct_as_record=False , se puede acceder al campo:

 v=spio.loadmat('xy.mat',squeeze_me=True,struct_as_record=False) 

Ahora era posible acceder a ella por

 >> v['b'].cd array(3) 

Aquí están las funciones, que reconstruyen los diccionarios, solo usan este loadmat en lugar del loadmat de scipy.io:

 import scipy.io as spio def loadmat(filename): ''' this function should be called instead of direct spio.loadmat as it cures the problem of not properly recovering python dictionaries from mat files. It calls the function check keys to cure all entries which are still mat-objects ''' data = spio.loadmat(filename, struct_as_record=False, squeeze_me=True) return _check_keys(data) def _check_keys(dict): ''' checks if entries in dictionary are mat-objects. If yes todict is called to change them to nested dictionaries ''' for key in dict: if isinstance(dict[key], spio.matlab.mio5_params.mat_struct): dict[key] = _todict(dict[key]) return dict def _todict(matobj): ''' A recursive function which constructs from matobjects nested dictionaries ''' dict = {} for strg in matobj._fieldnames: elem = matobj.__dict__[strg] if isinstance(elem, spio.matlab.mio5_params.mat_struct): dict[strg] = _todict(elem) else: dict[strg] = elem return dict 

Solo una mejora de la respuesta de la fusión, que desafortunadamente dejará de repetirse si llega a una matriz de objetos de celda. La siguiente versión hará listas de ellos y continuará la recursión en los elementos de la matriz de celdas si es posible.

 import scipy import numpy as np def loadmat(filename): ''' this function should be called instead of direct spio.loadmat as it cures the problem of not properly recovering python dictionaries from mat files. It calls the function check keys to cure all entries which are still mat-objects ''' def _check_keys(d): ''' checks if entries in dictionary are mat-objects. If yes todict is called to change them to nested dictionaries ''' for key in d: if isinstance(d[key], spio.matlab.mio5_params.mat_struct): d[key] = _todict(d[key]) return d def _todict(matobj): ''' A recursive function which constructs from matobjects nested dictionaries ''' d = {} for strg in matobj._fieldnames: elem = matobj.__dict__[strg] if isinstance(elem, spio.matlab.mio5_params.mat_struct): d[strg] = _todict(elem) elif isinstance(elem, np.ndarray): d[strg] = _tolist(elem) else: d[strg] = elem return d def _tolist(ndarray): ''' A recursive function which constructs lists from cellarrays (which are loaded as numpy ndarrays), recursing into the elements if they contain matobjects. ''' elem_list = [] for sub_elem in ndarray: if isinstance(sub_elem, spio.matlab.mio5_params.mat_struct): elem_list.append(_todict(sub_elem)) elif isinstance(sub_elem, np.ndarray): elem_list.append(_tolist(sub_elem)) else: elem_list.append(sub_elem) return elem_list data = scipy.io.loadmat(filename, struct_as_record=False, squeeze_me=True) return _check_keys(data) 

Encontrado una solución, uno puede acceder al contenido del “objeto scipy.io.matlab.mio5_params.mat_struct” se puede investigar a través de:

 v['b'].__dict__['c'].__dict__['d'] 

Se me informó en la lista de correo electrónico ( https://mail.python.org/pipermail/scipy-user/ ) que hay dos formas más de acceder a estos datos.

Esto funciona:

 import scipy.io as spio vig=spio.loadmat('xy.mat') print vig['b'][0, 0]['c'][0, 0]['d'][0, 0] 

Salida en mi máquina: 3

La razón de este tipo de acceso: “Por razones históricas, en Matlab todo es al menos una matriz 2D, incluso escalares”. Así que scipy.io.loadmat imita el comportamiento de Matlab por defecto.

Otro método que funciona:

 import scipy.io as spio vig=spio.loadmat('xy.mat',squeeze_me=True) print vig['b']['c'].item()['d'] 

Salida:

3

También aprendí este método en la lista de correo scipy. Ciertamente no entiendo (todavía) por qué se debe agregar ‘.item ()’, y:

 print vig['b']['c']['d'] 

arrojará un error en su lugar:

IndexError: solo enteros, segmentos (:), puntos suspensivos ( ... ), numpy.newaxis ( None ) y enteros o arrays booleanos son índices válidos

Pero volveré para complementar la explicación cuando lo sepa. Explicación de numpy.ndarray.item (de la referencia de thenumpy): Copie un elemento de una matriz en un escalar Python estándar y devuélvalo.

(Tenga en cuenta que esta respuesta es básicamente la misma que el comentario de hpaulj a la pregunta inicial, pero sentí que el comentario no es lo suficientemente “visible” o comprensible. Ciertamente no lo noté cuando busqué una solución para la primera tiempo, hace unas semanas).