Articles of pypdf

encontrar en qué página se encuentra una cadena de búsqueda en un documento pdf usando python

¿Qué paquetes de Python puedo usar para averiguar en qué página se encuentra una “cadena de búsqueda” específica? Busqué en varios paquetes pdf de Python, pero no pude averiguar cuál debería usar. PyPDF no parece tener esta funcionalidad y PDFMiner parece ser una exageración para una tarea tan simple. Algún consejo ? Más preciso: tengo […]

¿Cómo instalo el módulo pyPDF2 en windows?

Como novato … Estoy teniendo dificultades para instalar el módulo pyPDF2. He descargado ¿Dónde y cómo instalo (setup.py) para poder usar el módulo en el intérprete de python?

PyPDF Merge and Write Issue

Estoy recibiendo un error inesperado al usar esto. La primera sección proviene de un script que encontré en línea, y estoy tratando de usarlo para extraer una sección particular identificada en el esquema del PDF. Todo funciona bien, excepto a la derecha en output.write(outputfile1) que dice: PdfReadError: definiciones múltiples en el diccionario. ¿Alguien más se […]

leer / escribir metadatas xmp en archivos pdf a través de pypdf

Puedo leer metadatas xmp a través de pyPdf con este código: a = pyPdf.PdfFileReader(open(self.fileName)) b = a.getXmpMetadata() c = b.pdf_keywords Pero, ¿es esta la mejor manera? ¿Y si no uso la propiedad pdf_keywords? ¿Y hay alguna manera de configurar estos metadatos con pyPdf?

Cómo cerrar el manejador de archivos de clase “PdfFileReader” de pyPDF

Esta debería ser una pregunta muy simple, para la que no pude encontrar respuesta en la búsqueda de Google: Cómo cerrar el identificador de archivos abierto por la clase “PdfFileReader” de pyPDF Aquí está un fragmento de código: import os.path from pyPdf import PdfFileReader fname = ‘my.pdf’ input = PdfFileReader(file(fname, “rb”)) os.rename(fname, ‘my_renamed.pdf’) lo que […]

Recortar una página en Python usando pyPdf

Estoy escribiendo un script para extraer algunos datos de un PDF. El PDF en sí es bastante complicado, ya que tiene varias columnas. Así que me di cuenta de que debería recortar cada columna y concatenar las columnas para crear un nuevo PDF que sea mejor para analizar usando pyPdf. Este es mi código: for […]

herramienta python pypdf

Uso del módulo python de pypdf para leer el siguiente archivo pdf http://www.envis-icpe.com/pointcounterpointbook/Hindi_Book.pdf # -*- coding: utf-8 -*- from pyPdf import PdfFileWriter, PdfFileReader import pyPdf def getPDFContent(path): content = “” # Load PDF into pyPDF pdf = pyPdf.PdfFileReader(file(path, “rb”)) # Iterate pages for i in range(0, pdf.getNumPages()): # Extract text from page and add to […]

¿Por qué mi código no divide correctamente todas las páginas en un PDF escaneado?

Actualización: Gracias a stardt cuyo script funciona! El pdf es una página de otra. Probé la secuencia de comandos en la otra, y también escupí correctamente cada página del pdf, pero el orden de los números de página a veces es correcto y otras es incorrecto. Por ejemplo, en la página 25-28 del archivo pdf, […]

Python, pyPdf, error de Adobe OCR en PDF: filtro / lzwdecode no compatible

Mis cosas: python 2.6 64 bit (con pyPdf-1.13.win32.exe instalado). Ala IDE. Windows 7 64 bit. Tuve el siguiente error: Error no implementado: filtro no compatible / LZWDecode Cuando ejecuté el siguiente código: from pyPdf import PdfFileWriter, PdfFileReader import sys, os, pyPdf, re path = ‘C:\\Users\\Homer\\Documents\\’ # This is where I put my pdfs filelist = […]

Fusionando dos archivos PDF

import PyPDF2 import glob import os from fpdf import FPDF import shutil class MyPDF(FPDF): # adding a footer, containing the page number def footer (self): self.set_y(-15) self.set_font(“Arial”, Style=”I”, size=8) pageNum = “page %s/{nb}” % self.page_no() self.cell(0,10, pageNum, align=”C”) if __name__ == “__main__”: os.chdir(“pathtolocation/docs/”) # docs location os.system(“libreoffice –headless –invisible –convert-to pdf *”) # this converts […]