Articles of pypdf

Detectar y alterar cadenas en archivos PDF.

Quiero poder detectar un patrón en un PDF y marcarlo de alguna manera. Por ejemplo, en este PDF , está la cadena *2 . Quiero poder analizar el PDF, detectar todas las instancias de *[integer] y hacer algo para llamar la atención sobre las coincidencias (como resaltarlas en amarillo o agregar un símbolo en el […]

pyPdf para extracción de objeto indirecto

Siguiendo este ejemplo, puedo listar todos los elementos en un archivo pdf import pyPdf pdf = pyPdf.PdfFileReader(open(“pdffile.pdf”)) list(pdf.pages) # Process all the objects. print pdf.resolvedObjects ahora, necesito extraer un objeto no estándar del archivo pdf. Mi objeto es el que se llama MYOBJECT y es una cadena. La pieza impresa por el guión de python […]

PyPDF2 no importará

Hola, acabo de empezar con Python y estoy intentando instalar algunas bibliotecas necesarias. Utilizando Python 3.4.1 en OS X. He instalado PyPDF2 (con un supuesto éxito), pero parece que no puedo usar las herramientas: sh-3.2# port select –list python Available versions for python: none python25-apple python26 python26-apple python27-apple python34 (active) sh-3.2# pip install PyPDF2 Requirement […]

pypdf fusionar varios archivos pdf en un pdf

Si tengo más de 1000 archivos pdf, debo combinarlos en un solo pdf. input = PdfFileReader() output = PdfFileWriter() filename0000 —– filename 1000 input = PdfFileReader(file(filename, “rb”)) pageCount = input.getNumPages() for iPage in range(0, pageCount): output.addPage(input.getPage(iPage)) outputStream = file(“document-output.pdf”, “wb”) output.write(outputStream) outputStream.close() Ejecute el código anterior, cuando input = PdfFileReader(file(filename500+, “rb”)) , Un mensaje de […]

¿Cómo leer línea por línea en un archivo pdf usando PyPdf?

Tengo un código para leer de un archivo pdf. ¿Hay una manera de leer línea por línea desde el archivo pdf (no páginas) usando Pypdf, Python 2.6, en Windows? Aquí está el código para leer las páginas pdf: import pyPdf def getPDFContent(path): content = “” num_pages = 10 p = file(path, “rb”) pdf = pyPdf.PdfFileReader(p) […]

El espacio en blanco pasó de la extracción de PDF y la extraña interpretación de palabras.

Con el siguiente fragmento de código, he intentado extraer los datos de texto de este archivo PDF. import pyPdf def get_text(path): # Load PDF into pyPDF pdf = pyPdf.PdfFileReader(file(path, “rb”)) # Iterate pages content = “” for i in range(0, pdf.getNumPages()): content += pdf.getPage(i).extractText() + “\n” # Extract text from page and add to content […]

Apertura de urls en pdf con pypdf

¿Cómo abrir un pdf desde url en lugar de desde el disco Algo como input1 = PdfFileReader(file(“http://example.com/a.pdf”, “rb”)) Quiero abrir varios archivos desde la web y descargar una combinación de todos los archivos.

Recortar páginas de un archivo .pdf

Me preguntaba si alguien tenía alguna experiencia en el trabajo programático con archivos .pdf. Tengo un archivo .pdf y necesito recortar cada página hasta un tamaño determinado. Después de una búsqueda rápida en Google, encontré la biblioteca pyPdf para python, pero mis experimentos con ella fallaron. Cuando cambié los atributos cropBox y trimBox en un […]

PyPDF 2 descifrar no funciona

Actualmente estoy usando el PyPDF 2 como una dependencia. Encontré algunos archivos cifrados y los manejé como lo haría normalmente (en el siguiente código): PDF = PdfFileReader(file(pdf_filepath, ‘rb’)) if PDF.isEncrypted: PDF.decrypt(“”) print PDF.getNumPages() Mi ruta de archivo se ve algo como “~ / blah / FDJKL492019 21490, LFS.pdf” PDF.decrypt (“”) devuelve 1, lo que significa […]

Detección de sangrado de PDF

Actualmente estoy escribiendo una pequeña herramienta (Python + pyPdf) para probar los PDF para verificar la conformidad de la impresora. Por desgracia, ya me confundí en la primera tarea: detectar si el PDF tiene una sangría de al menos 3 mm (borde alrededor de las páginas donde no se imprime nada). Ya entendí que no […]