¿Qué paquetes de Python puedo usar para averiguar en qué página se encuentra una “cadena de búsqueda” específica? Busqué en varios paquetes pdf de Python, pero no pude averiguar cuál debería usar. PyPDF no parece tener esta funcionalidad y PDFMiner parece ser una exageración para una tarea tan simple. Algún consejo ? Más preciso: tengo […]
Como novato … Estoy teniendo dificultades para instalar el módulo pyPDF2. He descargado ¿Dónde y cómo instalo (setup.py) para poder usar el módulo en el intérprete de python?
Estoy recibiendo un error inesperado al usar esto. La primera sección proviene de un script que encontré en línea, y estoy tratando de usarlo para extraer una sección particular identificada en el esquema del PDF. Todo funciona bien, excepto a la derecha en output.write(outputfile1) que dice: PdfReadError: definiciones múltiples en el diccionario. ¿Alguien más se […]
Puedo leer metadatas xmp a través de pyPdf con este código: a = pyPdf.PdfFileReader(open(self.fileName)) b = a.getXmpMetadata() c = b.pdf_keywords Pero, ¿es esta la mejor manera? ¿Y si no uso la propiedad pdf_keywords? ¿Y hay alguna manera de configurar estos metadatos con pyPdf?
Esta debería ser una pregunta muy simple, para la que no pude encontrar respuesta en la búsqueda de Google: Cómo cerrar el identificador de archivos abierto por la clase “PdfFileReader” de pyPDF Aquí está un fragmento de código: import os.path from pyPdf import PdfFileReader fname = ‘my.pdf’ input = PdfFileReader(file(fname, “rb”)) os.rename(fname, ‘my_renamed.pdf’) lo que […]
Estoy escribiendo un script para extraer algunos datos de un PDF. El PDF en sí es bastante complicado, ya que tiene varias columnas. Así que me di cuenta de que debería recortar cada columna y concatenar las columnas para crear un nuevo PDF que sea mejor para analizar usando pyPdf. Este es mi código: for […]
Uso del módulo python de pypdf para leer el siguiente archivo pdf http://www.envis-icpe.com/pointcounterpointbook/Hindi_Book.pdf # -*- coding: utf-8 -*- from pyPdf import PdfFileWriter, PdfFileReader import pyPdf def getPDFContent(path): content = “” # Load PDF into pyPDF pdf = pyPdf.PdfFileReader(file(path, “rb”)) # Iterate pages for i in range(0, pdf.getNumPages()): # Extract text from page and add to […]
Actualización: Gracias a stardt cuyo script funciona! El pdf es una página de otra. Probé la secuencia de comandos en la otra, y también escupí correctamente cada página del pdf, pero el orden de los números de página a veces es correcto y otras es incorrecto. Por ejemplo, en la página 25-28 del archivo pdf, […]
Mis cosas: python 2.6 64 bit (con pyPdf-1.13.win32.exe instalado). Ala IDE. Windows 7 64 bit. Tuve el siguiente error: Error no implementado: filtro no compatible / LZWDecode Cuando ejecuté el siguiente código: from pyPdf import PdfFileWriter, PdfFileReader import sys, os, pyPdf, re path = ‘C:\\Users\\Homer\\Documents\\’ # This is where I put my pdfs filelist = […]
import PyPDF2 import glob import os from fpdf import FPDF import shutil class MyPDF(FPDF): # adding a footer, containing the page number def footer (self): self.set_y(-15) self.set_font(“Arial”, Style=”I”, size=8) pageNum = “page %s/{nb}” % self.page_no() self.cell(0,10, pageNum, align=”C”) if __name__ == “__main__”: os.chdir(“pathtolocation/docs/”) # docs location os.system(“libreoffice –headless –invisible –convert-to pdf *”) # this converts […]