Articles of pdf

Convertir un pdf a texto / html en python para que pueda analizarlo

Tengo el siguiente código de muestra donde descargo un pdf del sitio web del Parlamento Europeo sobre una propuesta legislativa determinada: EDITAR: Acabo de recibir el enlace y enviarlo a la herramienta de conversión en línea de adobes (consulte el código a continuación): import mechanize import urllib2 import re from BeautifulSoup import * adobe = […]

Extraer tabla de un PDF

Estoy tratando de extraer una tabla de un documento pdf Probé la ruta de pdf -> html -> extraer tabla. El pdf que mencioné anteriormente cuando se convirtió a html produce basura, tal vez debido a la fuente, el documento no está en inglés. Extraer el pdf utilizando las coordenadas xey no es una opción, […]

Python: cree un informe .pdf de varias páginas diseñado de forma estricta y automatizado a partir de .html

¿Cuáles son las buenas opciones basadas en Python para crear informes .pdf estrictamente diseñados a partir de .html? He adjuntado un borrador de .pdf para ilustrar los siguientes puntos: El diseño del informe está más bien diseñado estrictamente. En otras palabras “las apariencias importan”. El informe contiene gráficos vectoriales complejos (paquete: Matplotlib ). Pueden diferir […]

¿Cómo convierto imágenes (PSD, AI y EPS) a PDF?

Los clientes de mi sitio de Django pueden cargar un diseño de impresión en: PDF, PSD, AI y EPS. Si el tipo de archivo que cargan no es PDF, quiero convertirlo a PDF. Así que mi pregunta es: ¿Cómo convierto archivos de Photoshop, Illustrator y CorelDraw a PDF (programáticamente)? Intenté UniConvertor pero no es compatible […]

encontrar en qué página se encuentra una cadena de búsqueda en un documento pdf usando python

¿Qué paquetes de Python puedo usar para averiguar en qué página se encuentra una “cadena de búsqueda” específica? Busqué en varios paquetes pdf de Python, pero no pude averiguar cuál debería usar. PyPDF no parece tener esta funcionalidad y PDFMiner parece ser una exageración para una tarea tan simple. Algún consejo ? Más preciso: tengo […]

¿Cómo obtener el diff de dos archivos PDF en python?

Necesito encontrar la diferencia entre dos archivos pdf. ¿Alguna herramienta relacionada con python tiene alguna característica que dé directamente la diferencia de los 2 PDF?

Escribir metadatos a un pdf usando pyobjc

Estoy tratando de escribir metadatos en un archivo pdf usando el siguiente código de Python: from Foundation import * from Quartz import * url = NSURL.fileURLWithPath_(“test.pdf”) pdfdoc = PDFDocument.alloc().initWithURL_(url) assert pdfdoc, “failed to create document” print “reading pdf file” attrs = {} attrs[PDFDocumentTitleAttribute] = “THIS IS THE TITLE” attrs[PDFDocumentAuthorAttribute] = “A. Author and B. Author” […]

Python Ghostscript no cierra el archivo de salida

Estoy intentando convertir archivos PDF con una o varias páginas en imágenes para cada página. Esto es muy parecido a la pregunta que se encuentra aquí . De hecho, estoy intentando usar el código de @Idan Yacobi en esa publicación para lograr esto. Su código se ve así: import ghostscript def pdf2jpeg(pdf_input_path, jpeg_output_path): args = […]

Libreta IPython – no se puede exportar a pdf

Estoy tratando de exportar mi cuaderno de IPython a pdf, pero de alguna manera no puedo averiguar cómo hacerlo. Busqué en stackoverflow y ya leí sobre nbconvert, pero ¿dónde escribo ese comando? ¿En el cuaderno? En el indicador de cmd? Si alguien me puede decir, paso a paso, ¿qué hacer? Estoy usando Python 3.3 e […]

¿Trabajando con streams en PDFrw para Python?

Estoy tratando de leer un PDF de ejemplo con PDFrw. El PDF contiene la frase Hello Matthew en la esquina inferior izquierda en las coordenadas (100, 100) . Cuando bash dar salida al texto (¿si puedo?) Obtengo un flujo de datos. Parece que no puedo entender cómo obtener eso como texto. >>> import pdfrw >>> […]