pdfminer3k no tiene un método llamado create_pages en PDFPage

Ya que quiero pasar de python 2 a 3, intenté trabajar con pdfmine.3kr en python 3.4. Parece que lo han editado todo. Sus registros de cambios no reflejan los cambios que han hecho, pero no tuve éxito en el análisis de pdf con pdfminer3k. Por ejemplo:

Han movido PDFDocument a pdfparser (lo siento, si lo deletreo incorrectamente). PDFPage solía tener el método create_pages que ya no existe. Todo lo que puedo ver dentro de PDFPage son métodos internos. ¿Alguien tiene un ejemplo de trabajo de pdfminer3k? Parece que no hay documentación nueva para reflejar ninguno de los cambios.

Si está interesado en leer texto de un archivo pdf, el siguiente código funciona con pdfminer3k usando python 3.4.

 from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams, LTTextBox, LTTextLine fp = open('file.pdf', 'rb') parser = PDFParser(fp) doc = PDFDocument() parser.set_document(doc) doc.set_parser(parser) doc.initialize('') rsrcmgr = PDFResourceManager() laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams=laparams) interpreter = PDFPageInterpreter(rsrcmgr, device) # Process each page contained in the document. for page in doc.get_pages(): interpreter.process_page(page) layout = device.get_result() for lt_obj in layout: if isinstance(lt_obj, LTTextBox) or isinstance(lt_obj, LTTextLine): print(lt_obj.get_text()) fp.close() 

Tal vez, podría utilizar pdfminer.six. Es descripción:

Horquilla de PDFMiner utilizando seis para Python 2 + 3 compatibilidad

Después de instalarlo usando pip :

pip instalar pdfminer.six

Su uso es como pdfminer , al menos en mi código.

Espero que esto pueda salvar tu día 🙂