Articles of pypdf

Cómo cerrar el manejador de archivos de clase “PdfFileReader” de pyPDF

Esta debería ser una pregunta muy simple, para la que no pude encontrar respuesta en la búsqueda de Google: Cómo cerrar el identificador de archivos abierto por la clase “PdfFileReader” de pyPDF Aquí está un fragmento de código: import os.path from pyPdf import PdfFileReader fname = ‘my.pdf’ input = PdfFileReader(file(fname, “rb”)) os.rename(fname, ‘my_renamed.pdf’) lo que […]

Recortar una página en Python usando pyPdf

Estoy escribiendo un script para extraer algunos datos de un PDF. El PDF en sí es bastante complicado, ya que tiene varias columnas. Así que me di cuenta de que debería recortar cada columna y concatenar las columnas para crear un nuevo PDF que sea mejor para analizar usando pyPdf. Este es mi código: for […]

herramienta python pypdf

Uso del módulo python de pypdf para leer el siguiente archivo pdf http://www.envis-icpe.com/pointcounterpointbook/Hindi_Book.pdf # -*- coding: utf-8 -*- from pyPdf import PdfFileWriter, PdfFileReader import pyPdf def getPDFContent(path): content = “” # Load PDF into pyPDF pdf = pyPdf.PdfFileReader(file(path, “rb”)) # Iterate pages for i in range(0, pdf.getNumPages()): # Extract text from page and add to […]

¿Por qué mi código no divide correctamente todas las páginas en un PDF escaneado?

Actualización: Gracias a stardt cuyo script funciona! El pdf es una página de otra. Probé la secuencia de comandos en la otra, y también escupí correctamente cada página del pdf, pero el orden de los números de página a veces es correcto y otras es incorrecto. Por ejemplo, en la página 25-28 del archivo pdf, […]

Python, pyPdf, error de Adobe OCR en PDF: filtro / lzwdecode no compatible

Mis cosas: python 2.6 64 bit (con pyPdf-1.13.win32.exe instalado). Ala IDE. Windows 7 64 bit. Tuve el siguiente error: Error no implementado: filtro no compatible / LZWDecode Cuando ejecuté el siguiente código: from pyPdf import PdfFileWriter, PdfFileReader import sys, os, pyPdf, re path = ‘C:\\Users\\Homer\\Documents\\’ # This is where I put my pdfs filelist = […]

Fusionando dos archivos PDF

import PyPDF2 import glob import os from fpdf import FPDF import shutil class MyPDF(FPDF): # adding a footer, containing the page number def footer (self): self.set_y(-15) self.set_font(“Arial”, Style=”I”, size=8) pageNum = “page %s/{nb}” % self.page_no() self.cell(0,10, pageNum, align=”C”) if __name__ == “__main__”: os.chdir(“pathtolocation/docs/”) # docs location os.system(“libreoffice –headless –invisible –convert-to pdf *”) # this converts […]

No se puede instalar el módulo PyPdf 2

Tratando de instalar el módulo PyPdf2 , descargué el zip y lo descomprimí, python setup.py build y python setup.py install , pero parece que no se ha instalado, cuando bash importarlo desde un script de python, devuelve un ImportError : import pyPdf Traceback (most recent call last): File “”, line 1, in ImportError: No module […]

Recuperar números de página del documento con pyPDF

En este momento estoy buscando hacer una fusión de PDF con pyPdf, pero a veces las entradas no están en el orden correcto, por lo que estoy buscando raspar cada página para determinar el orden en que debe ir (por ejemplo, si alguien dividió un libro en 20 archivos PDF de 10 páginas y quiero […]

Extraer texto usando PdfMiner y PyPDF2 Fusiona columnas

Estoy intentando analizar el texto del archivo pdf utilizando pdfMiner, pero el texto extraído se fusiona. Estoy usando el archivo pdf del siguiente enlace. Archivo PDF Soy bueno con cualquier tipo de salida (archivo / cadena). Aquí está el código que devuelve el texto extraído como una cadena, pero por alguna razón, las columnas se […]

¿Cómo extraer texto de un archivo PDF en Python?

¿Cómo puedo extraer texto de un archivo PDF en Python? Intenté lo siguiente: import sys import pyPdf def convertPdf2String(path): content = “” pdf = pyPdf.PdfFileReader(file(path, “rb”)) for i in range(0, pdf.getNumPages()): content += pdf.getPage(i).extractText() + ” \n” content = ” “.join(content.replace(u”\xa0″, u” “).strip().split()) return content f = open(‘a.txt’,’w+’) f.write(convertPdf2String(sys.argv[1]).encode(“ascii”,”xmlcharrefreplace”)) f.close() Pero el resultado es el […]