Articles of pypdf

PyPDF Merge and Write Issue

Estoy recibiendo un error inesperado al usar esto. La primera sección proviene de un script que encontré en línea, y estoy tratando de usarlo para extraer una sección particular identificada en el esquema del PDF. Todo funciona bien, excepto a la derecha en output.write(outputfile1) que dice: PdfReadError: definiciones múltiples en el diccionario. ¿Alguien más se […]

leer / escribir metadatas xmp en archivos pdf a través de pypdf

Puedo leer metadatas xmp a través de pyPdf con este código: a = pyPdf.PdfFileReader(open(self.fileName)) b = a.getXmpMetadata() c = b.pdf_keywords Pero, ¿es esta la mejor manera? ¿Y si no uso la propiedad pdf_keywords? ¿Y hay alguna manera de configurar estos metadatos con pyPdf?

Cómo cerrar el manejador de archivos de clase “PdfFileReader” de pyPDF

Esta debería ser una pregunta muy simple, para la que no pude encontrar respuesta en la búsqueda de Google: Cómo cerrar el identificador de archivos abierto por la clase “PdfFileReader” de pyPDF Aquí está un fragmento de código: import os.path from pyPdf import PdfFileReader fname = ‘my.pdf’ input = PdfFileReader(file(fname, “rb”)) os.rename(fname, ‘my_renamed.pdf’) lo que […]

Recortar una página en Python usando pyPdf

Estoy escribiendo un script para extraer algunos datos de un PDF. El PDF en sí es bastante complicado, ya que tiene varias columnas. Así que me di cuenta de que debería recortar cada columna y concatenar las columnas para crear un nuevo PDF que sea mejor para analizar usando pyPdf. Este es mi código: for […]

herramienta python pypdf

Uso del módulo python de pypdf para leer el siguiente archivo pdf http://www.envis-icpe.com/pointcounterpointbook/Hindi_Book.pdf # -*- coding: utf-8 -*- from pyPdf import PdfFileWriter, PdfFileReader import pyPdf def getPDFContent(path): content = “” # Load PDF into pyPDF pdf = pyPdf.PdfFileReader(file(path, “rb”)) # Iterate pages for i in range(0, pdf.getNumPages()): # Extract text from page and add to […]

¿Por qué mi código no divide correctamente todas las páginas en un PDF escaneado?

Actualización: Gracias a stardt cuyo script funciona! El pdf es una página de otra. Probé la secuencia de comandos en la otra, y también escupí correctamente cada página del pdf, pero el orden de los números de página a veces es correcto y otras es incorrecto. Por ejemplo, en la página 25-28 del archivo pdf, […]

Python, pyPdf, error de Adobe OCR en PDF: filtro / lzwdecode no compatible

Mis cosas: python 2.6 64 bit (con pyPdf-1.13.win32.exe instalado). Ala IDE. Windows 7 64 bit. Tuve el siguiente error: Error no implementado: filtro no compatible / LZWDecode Cuando ejecuté el siguiente código: from pyPdf import PdfFileWriter, PdfFileReader import sys, os, pyPdf, re path = ‘C:\\Users\\Homer\\Documents\\’ # This is where I put my pdfs filelist = […]

Fusionando dos archivos PDF

import PyPDF2 import glob import os from fpdf import FPDF import shutil class MyPDF(FPDF): # adding a footer, containing the page number def footer (self): self.set_y(-15) self.set_font(“Arial”, Style=”I”, size=8) pageNum = “page %s/{nb}” % self.page_no() self.cell(0,10, pageNum, align=”C”) if __name__ == “__main__”: os.chdir(“pathtolocation/docs/”) # docs location os.system(“libreoffice –headless –invisible –convert-to pdf *”) # this converts […]

No se puede instalar el módulo PyPdf 2

Tratando de instalar el módulo PyPdf2 , descargué el zip y lo descomprimí, python setup.py build y python setup.py install , pero parece que no se ha instalado, cuando bash importarlo desde un script de python, devuelve un ImportError : import pyPdf Traceback (most recent call last): File “”, line 1, in ImportError: No module […]

Recuperar números de página del documento con pyPDF

En este momento estoy buscando hacer una fusión de PDF con pyPdf, pero a veces las entradas no están en el orden correcto, por lo que estoy buscando raspar cada página para determinar el orden en que debe ir (por ejemplo, si alguien dividió un libro en 20 archivos PDF de 10 páginas y quiero […]