Articles of pypdf

Resaltar texto en un PDF con Python

Estoy trabajando en un motor de búsqueda personalizado para mi corpus de datos PDF. Tengo una capa de transformación que puede volcar contenido de PDF a texto (usando Apache Tika y GROBID). He terminado las capas de búsqueda y la vista que devuelve el listado de resultados de búsqueda. Ahora, me gustaría agregar la función […]

Cómo fusionar dos páginas pdf en formato horizontal usando pyPdf

Tengo problemas para fusionar dos archivos PDF con pyPdf. Cuando ejecuto el siguiente código, la marca de agua (página 1) se ve bien, pero la página 2 se ha girado 90 grados en el sentido de las agujas del reloj. ¿Alguna idea de qué está pasando? from pyPdf import PdfFileWriter, PdfFileReader # PDF1: A4 Landscape […]

Cómo adjuntar páginas PDF usando PyPDF2

¿Alguien tiene experiencia combinando dos páginas de un archivo PDF en una usando Python lib PyPDF2? Cuando bash page1.mergePage(page2) , aparece page2 superpuesto page1. ¿Cómo hacerlo para agregar page2 al final de la página1?

¿Cómo instalar poppler en ubuntu 15.04?

Poppler es una biblioteca de renderización de PDF basada en el código base xpdf-3.0. Ya he descargado el archivo tar.xz del sitio oficial http://poppler.freedesktop.org/ Pero no sé qué hacer con este archivo ¿Hay algún comando para instalar o ejecutar? PD: soy nuevo en Linux, así que todavía no sé mucho sobre eso.

encontrar en qué página se encuentra una cadena de búsqueda en un documento pdf usando python

¿Qué paquetes de Python puedo usar para averiguar en qué página se encuentra una “cadena de búsqueda” específica? Busqué en varios paquetes pdf de Python, pero no pude averiguar cuál debería usar. PyPDF no parece tener esta funcionalidad y PDFMiner parece ser una exageración para una tarea tan simple. Algún consejo ? Más preciso: tengo […]

¿Cómo instalo el módulo pyPDF2 en windows?

Como novato … Estoy teniendo dificultades para instalar el módulo pyPDF2. He descargado ¿Dónde y cómo instalo (setup.py) para poder usar el módulo en el intérprete de python?

PyPDF Merge and Write Issue

Estoy recibiendo un error inesperado al usar esto. La primera sección proviene de un script que encontré en línea, y estoy tratando de usarlo para extraer una sección particular identificada en el esquema del PDF. Todo funciona bien, excepto a la derecha en output.write(outputfile1) que dice: PdfReadError: definiciones múltiples en el diccionario. ¿Alguien más se […]

leer / escribir metadatas xmp en archivos pdf a través de pypdf

Puedo leer metadatas xmp a través de pyPdf con este código: a = pyPdf.PdfFileReader(open(self.fileName)) b = a.getXmpMetadata() c = b.pdf_keywords Pero, ¿es esta la mejor manera? ¿Y si no uso la propiedad pdf_keywords? ¿Y hay alguna manera de configurar estos metadatos con pyPdf?

Cómo cerrar el manejador de archivos de clase “PdfFileReader” de pyPDF

Esta debería ser una pregunta muy simple, para la que no pude encontrar respuesta en la búsqueda de Google: Cómo cerrar el identificador de archivos abierto por la clase “PdfFileReader” de pyPDF Aquí está un fragmento de código: import os.path from pyPdf import PdfFileReader fname = ‘my.pdf’ input = PdfFileReader(file(fname, “rb”)) os.rename(fname, ‘my_renamed.pdf’) lo que […]

Recortar una página en Python usando pyPdf

Estoy escribiendo un script para extraer algunos datos de un PDF. El PDF en sí es bastante complicado, ya que tiene varias columnas. Así que me di cuenta de que debería recortar cada columna y concatenar las columnas para crear un nuevo PDF que sea mejor para analizar usando pyPdf. Este es mi código: for […]