Usando PDFMiner (Python) con archivos pdf en línea. Codificar la url?

Estoy deseando extraer el contenido de los archivos pdf disponibles en línea usando PDFMiner .

Mi código se basa en el que está disponible en la documentación utilizada para extraer el contenido de los archivos PDF en el disco duro:

 # Open a PDF file. fp = open('mypdf.pdf', 'rb') # Create a PDF parser object associated with the file object. parser = PDFParser(fp) # Create a PDF document object that stores the document structure. document = PDFDocument(parser) 

Eso funciona bastante bien con algunos pequeños cambios.

Ahora, he intentado urllib2.openurl para archivos PDF en línea, pero eso no funciona. Recibo un mensaje de error: coercing to Unicode: need string or buffer, instance found .

¿Cómo puedo obtener una cadena (o lo que sea) de urllib2.openurl para que sea la misma que la función de open cuando le doy un nombre de archivo PDF (en comparación con una URL) `?

Por favor, dime si mi pregunta no es clara.

Bueno, finalmente encontré una solución,

StringIO en Request y StringIO y me deshice del open('my_file', 'rd')

 from urllib2 import Request from StringIO import StringIO url = 'my_url' open = urllib2.urlopen(Request(url)).read() memoryFile = StringIO(open) parser = PDFParser(memoryFile) 

De esa manera, Python considera la url como un archivo (para decirlo).