Python para NLTK en un archivo de Excel

Me gustaría analizar datos de texto en un archivo de Excel. Sé cómo podría leer un archivo de Excel a través de Python, pero cada dato se convierte en un valor de una lista. Sin embargo, me gustaría analizar el texto en cada celda.

Aquí está mi ejemplo del archivo de Excel:

 NOMBRE INFO INDUSTRIA    
 UN FINANCIERO DE ESTA EMPRESA ES BLA BLA BLA 
 FABRICACIÓN B ES LALALALALALALALALALA    
 C FINANCIERO QUE ES SOSOSOSOSOSOSOSO    
 D AGRICULTURA POR QUÉ ¿POR QUÉ? 

Me gustaría analizar, digamos, la información de la compañía de la industria financiera que usa NLTK, como la frecuencia de “TI”.

Esto es lo que tengo hasta ahora (sí, ¡no funciona!):

import xlrd aa='c:/book3.xls' wb = xlrd.open_workbook(aa) wb.sheet_names() sh = wb.sheet_by_index(0) for rownum in range(sh.nrows): print nltk.word_tokenize(sh.row_values(rownum)) 

Estás pasando todos los valores en una fila a word_tokenize pero solo estás interesado en lo que está en la tercera columna. También estás procesando la fila del encabezado. Prueba esto:

 import xlrd book = xlrd.open_workbook("your_input_file.xls") sheet = book.sheet_by_index(0) for row_index in xrange(1, sheet.nrows): # skip heading row name, industry, info = sheet.row_values(row_index, end_colx=3) print "Row %d: name=%r industry=%r info=%r" % (row_index + 1, name, industry, info) print nltk.word_tokenize(info) # or whatever else you want to do