Rendimiento al leer un archivo SPSS grande en el dataframe de pandas en Windows 7 (x64)

Tengo un gran archivo SPSS (que contiene poco más de 1 millón de registros, con poco menos de 150 columnas) que quiero convertir a un DataFrame de Pandas.

Se tarda unos minutos en convertir el archivo en una lista, que otro par de minutos en convertirlo en un dataframe, y en unos minutos más para configurar los encabezados de las columnas.

¿Hay optimizaciones posibles, que me faltan?

import pandas as pd import numpy as np import savReaderWriter as spss raw_data = spss.SavReader('largefile.sav', returnHeader = True) # This is fast raw_data_list = list(raw_data) # this is slow data = pd.DataFrame(raw_data_list) # this is slow data = data.rename(columns=data.loc[0]).iloc[1:] # setting columnheaders, this is slow too. 

    Puedes usar rawMode=True para acelerar un poco las cosas, como en:

    raw_data = spss.SavReader('largefile.sav', returnHeader=True, rawMode=True)

    De esta manera, las variables de fecha y hora (si las hay) no se convertirán a cadenas ISO, y los valores de SPSS $ sysmis no se convertirán a None , y algunas otras cosas.