Importación de archivos csv y xlsx a un dataframe pandas: problema de velocidad

La lectura de datos (solo 20000 números) de un archivo xlsx lleva una eternidad:

import pandas as pd xlsxfile = pd.ExcelFile("myfile.xlsx") data = xlsxfile.parse('Sheet1', index_col = None, header = None) 

Tarda unos 9 segundos.

Si guardo el mismo archivo en formato csv toma ~ 25ms:

 import pandas as pd csvfile = "myfile.csv" data = pd.read_csv(csvfile, index_col = None, header = None) 

¿Es este un problema de openpyxl o me estoy perdiendo algo? ¿Hay alguna alternativa?

xlrd admite archivos .xlsx, y esta respuesta sugiere que al menos la versión beta de xlrd con soporte .xlsx fue más rápida que openpyxl.

La versión estable actual de Pandas (11.0) usa openpyxl para archivos .xlsx, pero esto ha sido cambiado para la próxima versión. Si quieres darle una oportunidad, puedes descargar la versión dev de GitHub