Articles of pdfminer

PDFMiner – Iterando a través de páginas y convirtiéndolas en texto

Así que estoy tratando de sacar un poco de texto específico de algunos archivos PDF, y estoy usando Python con PDFMiner, pero tengo algunos problemas debido a los cambios en la API que ocurrieron en noviembre de 2013 . Básicamente, para obtener la parte del texto que quiero del PDF, actualmente tengo que convertir todo […]

Extraer tablas de un pdf

Estoy tratando de obtener los datos de las tablas en este PDF . He intentado pdfminer y pypdf con un poco de suerte, pero realmente no puedo obtener los datos de las tablas. Así es como se ve una de las tablas: Como puede ver, algunas columnas están marcadas con una ‘x’. Estoy tratando de […]

¿Cómo desbloquear un PDF “protegido” (protegido contra lectura) en Python?

En Python, estoy usando pdfminer para leer el texto de un pdf con el código debajo de este mensaje. Ahora recibo un mensaje de error que dice: File “/usr/local/lib/python2.7/dist-packages/pdfminer/pdfpage.py”, line 124, in get_pages raise PDFTextExtractionNotAllowed(‘Text extraction is not allowed: %r’ % fp) PDFTextExtractionNotAllowed: Text extraction is not allowed: Cuando abro este pdf con Acrobat Pro, […]

La fuente no puede ser extraída por PDFMiner

Estoy convirtiendo algunos informes en formato PDF a texto sin formato utilizando PDFMiner y un montón de mis archivos PDF de entrada solo salen con un par de líneas reconocidas y luego una lista de (cid:% d) un poco como esto … Reporte de inspección (cid: 4) (cid: 5) (cid: 6) (cid: 7) (cid: 8) […]

La extracción de texto de pdf con pdfminer da múltiples copias.

Estoy tratando de extraer texto de un archivo PDF utilizando PDFMiner (el código que se encuentra en ¿ Extraer texto de un archivo PDF utilizando PDFMiner en python? ). No cambié el código excepto la ruta / a / pdf. Sorprendentemente, el código devuelve varias copias del mismo documento. Obtuve el mismo resultado con otros […]

descodificar códigos de fuente CID a caracteres ASCII equivalentes

Estoy intentando extraer texto de un montón de archivos PDF y algunos de ellos tienen fonts CID incrustadas en la salida: (cid:80)(cid:72)(cid:87)(cid:68)(cid:70)(cid:76)(cid:87)(cid:76)(cid:72)(cid:86)(cid:3) (cid:177)(cid:3)(cid:71)(cid:72)(cid:191)(cid:81)(cid:72)(cid:71)(cid:3)(cid:69)(cid:92 (cid:3)(cid:56)(cid:49)(cid:3)(cid:43)(cid:68)(cid:69)(cid:76)(cid:87)(cid:68)(cid:87) (cid:3)(cid:68)(cid:86)(cid:3)(cid:70)(cid:76)(cid:87)(cid:76)(cid:72)(cid:86)(cid:3) (cid:90)(cid:76)(cid:87)(cid:75)(cid:3)(cid:80)(cid:82)(cid:85)(cid:72)(cid:3)(cid:87) (cid:75)(cid:68)(cid:81)(cid:3)(cid:20)(cid:19)(cid:3) Cuando miro ese fragmento exacto de texto en el PDF, las letras son ciertamente convertibles a ASCII: Esto probablemente sugiere que una deencoding de fuerza bruta funcionaría ( […]

pdfminer3k no tiene un método llamado create_pages en PDFPage

Ya que quiero pasar de python 2 a 3, intenté trabajar con pdfmine.3kr en python 3.4. Parece que lo han editado todo. Sus registros de cambios no reflejan los cambios que han hecho, pero no tuve éxito en el análisis de pdf con pdfminer3k. Por ejemplo: Han movido PDFDocument a pdfparser (lo siento, si lo […]

Python PDFMIner – PDF a CSV

Quiero poder convertir archivos PDF a archivos CSV y he encontrado varios scripts útiles pero, siendo nuevo en Python, tengo una pregunta: ¿Dónde especifica la ruta de archivo del PDF y el CSV que desea imprimir? Estoy usando Python 2.7.11 y PDFMiner 20140328. import sys from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfpage import PDFPage from […]

No se puede instalar pdfminer.six en Windows 10

En mi ventana cmd, escribí pip install pdfminer.six Y me da estos errores. Microsoft Windows [Version 10.0.15063] (c) 2017 Microsoft Corporation. All rights reserved. C:\Users\Eric Kim>pip install pdfminer.six Collecting pdfminer.six Retrying (Retry(total=4, connect=None, read=None, redirect=None)) after connection broken by ‘ProxyError(‘Cannot connect to proxy.’, NewConnectionError(‘: Failed to establish a new connection: [Errno 11001] getaddrinfo failed’,))’: /simple/pdfminer-six/ […]

PDFminer: PDFTextExtractionNotAllowed Error

Estoy intentando extraer texto de archivos PDF que he eliminado de Internet, pero cuando bash descargarlos, aparece el error: File “/usr/local/lib/python2.7/dist-packages/pdfminer/pdfpage.py”, line 124, in get_pages raise PDFTextExtractionNotAllowed(‘Text extraction is not allowed: %r’ % fp) PDFTextExtractionNotAllowed: Text extraction is not allowed He comprobado que stackoverflow y otra persona que tuvo este error encontraron que sus archivos […]