Articles of pypdf

Python, pyPdf, error de Adobe OCR en PDF: filtro / lzwdecode no compatible

Mis cosas: python 2.6 64 bit (con pyPdf-1.13.win32.exe instalado). Ala IDE. Windows 7 64 bit. Tuve el siguiente error: Error no implementado: filtro no compatible / LZWDecode Cuando ejecuté el siguiente código: from pyPdf import PdfFileWriter, PdfFileReader import sys, os, pyPdf, re path = ‘C:\\Users\\Homer\\Documents\\’ # This is where I put my pdfs filelist = […]

Fusionando dos archivos PDF

import PyPDF2 import glob import os from fpdf import FPDF import shutil class MyPDF(FPDF): # adding a footer, containing the page number def footer (self): self.set_y(-15) self.set_font(“Arial”, Style=”I”, size=8) pageNum = “page %s/{nb}” % self.page_no() self.cell(0,10, pageNum, align=”C”) if __name__ == “__main__”: os.chdir(“pathtolocation/docs/”) # docs location os.system(“libreoffice –headless –invisible –convert-to pdf *”) # this converts […]

No se puede instalar el módulo PyPdf 2

Tratando de instalar el módulo PyPdf2 , descargué el zip y lo descomprimí, python setup.py build y python setup.py install , pero parece que no se ha instalado, cuando bash importarlo desde un script de python, devuelve un ImportError : import pyPdf Traceback (most recent call last): File “”, line 1, in ImportError: No module […]

Recuperar números de página del documento con pyPDF

En este momento estoy buscando hacer una fusión de PDF con pyPdf, pero a veces las entradas no están en el orden correcto, por lo que estoy buscando raspar cada página para determinar el orden en que debe ir (por ejemplo, si alguien dividió un libro en 20 archivos PDF de 10 páginas y quiero […]

Extraer texto usando PdfMiner y PyPDF2 Fusiona columnas

Estoy intentando analizar el texto del archivo pdf utilizando pdfMiner, pero el texto extraído se fusiona. Estoy usando el archivo pdf del siguiente enlace. Archivo PDF Soy bueno con cualquier tipo de salida (archivo / cadena). Aquí está el código que devuelve el texto extraído como una cadena, pero por alguna razón, las columnas se […]

¿Cómo extraer texto de un archivo PDF en Python?

¿Cómo puedo extraer texto de un archivo PDF en Python? Intenté lo siguiente: import sys import pyPdf def convertPdf2String(path): content = “” pdf = pyPdf.PdfFileReader(file(path, “rb”)) for i in range(0, pdf.getNumPages()): content += pdf.getPage(i).extractText() + ” \n” content = ” “.join(content.replace(u”\xa0″, u” “).strip().split()) return content f = open(‘a.txt’,’w+’) f.write(convertPdf2String(sys.argv[1]).encode(“ascii”,”xmlcharrefreplace”)) f.close() Pero el resultado es el […]

Análisis de un PDF sin objeto / Root usando PDFMiner

Estoy tratando de extraer texto de una gran cantidad de archivos PDF utilizando los enlaces de python de PDFMiner. El módulo que escribí funciona para muchos archivos PDF, pero recibo este error un tanto críptico para un subconjunto de archivos PDF: rastro de stack ipython: /usr/lib/python2.7/dist-packages/pdfminer/pdfparser.pyc in set_parser(self, parser) 331 break 332 else: –> 333 […]

Cómo obtener el número de página del marcador

from pyPdf import PdfFileReader f = open(‘document.pdf’, ‘rb’) p = PdfFileReader(f) o = p.getOutlines() El objeto de lista o consta de objetos de diccionario pyPdf.pdf.Destination (marcadores), que tiene muchas propiedades, pero no puedo encontrar ningún número de página de referencia de ese marcador ¿Cómo puedo devolver el número de página de, digamos o[1] marcador? Por […]

Exportar Pandas DataFrame a un archivo PDF usando Python

¿Cuál es una forma eficiente de generar PDF para marcos de datos en Pandas?

Detectar y alterar cadenas en archivos PDF.

Quiero poder detectar un patrón en un PDF y marcarlo de alguna manera. Por ejemplo, en este PDF , está la cadena *2 . Quiero poder analizar el PDF, detectar todas las instancias de *[integer] y hacer algo para llamar la atención sobre las coincidencias (como resaltarlas en amarillo o agregar un símbolo en el […]