Leyendo una porción de un archivo xlsx grande con python

Tengo un gran archivo .xlsx con 1 millón de filas. No quiero abrir todo el archivo de una sola vez. Me preguntaba si puedo leer una parte del archivo, procesarlo y luego leer la siguiente parte. (Prefiero usar pandas para eso.)

Sí. Pandas soporta la lectura fragmentada. Irías leyendo un archivo de Excel como tal.

import pandas as pd xl = pd.ExcelFile("myfile.xlsx") for sheet_name in xl.sheet_names: reader = xl.parse(sheet_name, chunksize=1000): for chunk in reader: #parse chunk here 

Puedes usar el método read_excel () :

 chunksize = 10**5 for chunk in pd.read_excel(filename, chunksize=chunksize): # process `chunk` DF 

Si su archivo de Excel tiene varias hojas, eche un vistazo a la solución de bpachev