Articles of pdfminer

Python PDFMIner – PDF a CSV

Quiero poder convertir archivos PDF a archivos CSV y he encontrado varios scripts útiles pero, siendo nuevo en Python, tengo una pregunta: ¿Dónde especifica la ruta de archivo del PDF y el CSV que desea imprimir? Estoy usando Python 2.7.11 y PDFMiner 20140328. import sys from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfpage import PDFPage from […]

No se puede instalar pdfminer.six en Windows 10

En mi ventana cmd, escribí pip install pdfminer.six Y me da estos errores. Microsoft Windows [Version 10.0.15063] (c) 2017 Microsoft Corporation. All rights reserved. C:\Users\Eric Kim>pip install pdfminer.six Collecting pdfminer.six Retrying (Retry(total=4, connect=None, read=None, redirect=None)) after connection broken by ‘ProxyError(‘Cannot connect to proxy.’, NewConnectionError(‘: Failed to establish a new connection: [Errno 11001] getaddrinfo failed’,))’: /simple/pdfminer-six/ […]

PDFminer: PDFTextExtractionNotAllowed Error

Estoy intentando extraer texto de archivos PDF que he eliminado de Internet, pero cuando bash descargarlos, aparece el error: File “/usr/local/lib/python2.7/dist-packages/pdfminer/pdfpage.py”, line 124, in get_pages raise PDFTextExtractionNotAllowed(‘Text extraction is not allowed: %r’ % fp) PDFTextExtractionNotAllowed: Text extraction is not allowed He comprobado que stackoverflow y otra persona que tuvo este error encontraron que sus archivos […]

¿Cómo extraer texto y coordenadas de texto de un archivo PDF?

Quiero extraer todos los cuadros de texto y las coordenadas de los cuadros de texto de un archivo PDF con PDFMiner. Muchas otras publicaciones de desbordamiento de stack tratan cómo extraer todo el texto de una manera ordenada, pero ¿cómo puedo hacer el paso intermedio para obtener el texto y las ubicaciones del texto? Dado […]

El análisis de un pdf (secuencia de comandos de Devanagari) con PDFminer da un resultado incorrecto

Estoy tratando de analizar un archivo pdf que contiene una lista de votantes indios que está en hindi (guión de Devanagari). El PDF muestra todo el texto correctamente, pero cuando intenté volcar este pdf en formato de texto usando PDFminer, genera los caracteres que son diferentes de los originales del pdf. Por ejemplo, la palabra […]

pdfminer – ImportError: no hay un módulo llamado pdfminer.pdfdocument

Estoy intentando instalar pdfMiner para trabajar con CollectiveAccess. Mi anfitrión (pair.com) me ha dado la siguiente información para ayudar en esta búsqueda: Al comstackr, es probable que sea necesario instruir al Instalación para usar su espacio de cuenta arriba, y no intente instalar en los directorios del sistema operativo. Típicamente, usando “- home = / […]

¿Cómo uso pdfminer como una biblioteca?

Estoy tratando de obtener datos de texto de un pdf usando pdfminer . Puedo extraer estos datos en un archivo .txt correctamente con la herramienta de línea de comandos pdfminer pdf2txt.py. Actualmente hago esto y luego uso un script de Python para limpiar el archivo .txt. Me gustaría incorporar el proceso de extracción de pdf […]