¿Cómo puedo leer pdf en python?

¿Cómo puedo leer pdf en python? Conozco una forma de convertirlo en texto , pero quiero leer el contenido directamente desde pdf.

¿Alguien puede explicar qué módulo en Python es mejor para la extracción de PDF?

Puedes usar el paquete PyPDF2

#install pyDF2 pip install PyPDF2 # importing all the required modules import PyPDF2 # creating an object file = open('example.pdf', 'rb') # creating a pdf reader object fileReader = PyPDF2.PdfFileReader(file) # print the number of pages in pdf file print(fileReader.numPages) 

Siga esta documentación en http://pythonhosted.org/PyPDF2/

Puedes usar el módulo textract en python

Textract

para instalar

 pip install textract 

para leer pdf

 import textract text = textract.process('path/to/pdf/file', method='pdfminer') 

Para detalle textract

Pruebe PyPDF2.

Aquí hay un buen tutorial: https://automatetheboringstuff.com/chapter13/