Articles of pdf

¿Extrae texto por página con Python pdfMiner?

He experimentado con pyPdf y pdfMiner para extraer texto de archivos pdf. Tengo algunos archivos PDF hostiles que solo pdfMiner puede extraer con éxito. Estoy usando el código aquí para extraer el texto de todo el archivo. Sin embargo, realmente me gustaría extraer texto en una base por página como la funcionalidad getPage(i).extractText() en pyPdf. […]

Creando y escribiendo en un archivo pdf en Python

¿Por qué no funciona esto? with open(‘file.pdf’, ‘w’) as outfile: outfile.write(“Hello”) El código funciona bien, pero el archivo .pdf no se puede abrir. ¿Cuál es la diferencia entre un archivo de texto normal y un pdf? ¿Qué hacer si quiero crear y escribir en un archivo pdf en python?

Fusionando dos archivos PDF

import PyPDF2 import glob import os from fpdf import FPDF import shutil class MyPDF(FPDF): # adding a footer, containing the page number def footer (self): self.set_y(-15) self.set_font(“Arial”, Style=”I”, size=8) pageNum = “page %s/{nb}” % self.page_no() self.cell(0,10, pageNum, align=”C”) if __name__ == “__main__”: os.chdir(“pathtolocation/docs/”) # docs location os.system(“libreoffice –headless –invisible –convert-to pdf *”) # this converts […]

ReportLab: Cómo cambiar automáticamente el tamaño del texto para ajustarlo al bloque

Necesito generar un PDF con texto dynamic y estoy usando ReportLab. Dado que el texto es dynamic, ¿hay que cambiar el tamaño para que se ajuste a un área específica del PDF?

¿Los archivos PDF de texto-mina con Python?

¿Hay un paquete / biblioteca para python que me permita abrir un PDF y buscar en el texto ciertas palabras?

Convertir documento de Word a PDF – Python

Necesito rellenar un documento y luego intentar convertirlo en un PDF. ¿Alguna idea de cómo puedo hacer esto?

Python para leer archivos pdf

He encontrado muchas publicaciones donde se han propuesto soluciones para leer archivos PDF. Quiero leer un archivo pdf palabra por palabra y procesarlo. la gente sugiere pdfMiner que convierte un archivo pdf completo en un archivo de texto. Pero lo que quiero es que lea pdfs palabra por palabra. ¿Alguien puede sugerir una biblioteca que […]

Un pie de página multilínea (párrafo) y encabezado en reportlab

¿Cuál es la mejor manera de tener un pie de página y un encabezado en reportlab, que no solo una sola línea, que se pueda dibujar con canvas.drawString en la función onPage? No encontró una manera de poner algo como Párrafo en el encabezado / pie de página en la función onPage. ¿Cuál es la […]

Cree PDF con imágenes PNG (redimensionadas) usando Pycairo – redimensionando el problema de la superficie

Tengo algunos enlaces de imágenes PNG que quiero descargar, “convertir a miniaturas” y guardar en PDF usando Python y Cairo. Ahora tengo un código de trabajo, pero no sé cómo controlar el tamaño de la imagen en papel. ¿Hay alguna manera de cambiar el tamaño de una superficie de PyCairo a las dimensiones que deseo […]

Diferencias de Backend de Matplotlib entre Agg y El Cairo

Hej Me gustaría producir archivos PDF de alta calidad a partir de gráficos de matplotlib. Usando otro código, he producido una gran variedad de números, los cuales graficé en una figura usando plt.imshow. Si ahora produzco un PDF utilizando plt.savefig, observo fuertes diferencias según el backend que use. Lo más importante es que los archivos […]