Tabula extraer tablas por coordenadas de área

Se nos da la opción de extraer tablas de un documento PDF especificando sus coordenadas. Para los usuarios de Windows, para obtener las coordenadas, debe cargar el archivo PDF en la página web de Tabula y exportar el script que contiene las coordenadas y luego ingresar las coordenadas en su código. Para usuarios de Mac, solo tiene que usar la aplicación Vista previa y el inspector de cultivos. Me pregunto si hay algún progtwig o complemento de terceros que ofrezca esto al usuario de Windows. Creo que esto será útil en la siguiente situación:

  1. Cuando no tienes acceso a internet.
  2. Creo que la aplicación de vista previa será más precisa porque he experimentado coordenadas imprecisas producidas desde la página web de Tabula.

Estaré agradecido si alguien puede indicarme dónde puedo encontrar tal cosa. Muchas gracias.

Tabula necesita que las áreas se especifiquen en unidades de PDF, que se definen como 1/72 de pulgada. Si usa Acrobat Reader DC, puede usar la herramienta Medir y multiplicar sus lecturas por 72.

Tabula necesita que el área se especifique como las distancias superior , izquierda , inferior y derecha . Para obtenerlos, puede medir las distancias desde la parte superior de la página hasta el comienzo de la tabla y así sucesivamente.

introduzca la descripción de la imagen aquí

Tabula puede entender datos de coordenadas en forma de “puntos”.

En Windows puede medir las coordenadas de sus áreas con Adobe Acrobat DC y Acrobat Reader DC

si tiene Adobe Acrobat DC – Herramientas >> Editar PDF >> Seleccione su área y presione Entrar >> Cambiar unidades a puntos

Top 100 pt = A Left 50 pt = B Cropped page size 370 x 225 pt = C x D 

si tiene Adobe Acrobat DC o Acrobat Reader DC- Editar >> Preferencias >> Unidades >> Cambiar las unidades de la página a puntos >> Aceptar >> Herramientas >> Medir

 Top = A = 100 Left = B = 50 Areas Width = C = 370 Areas Length = D = 225 

tienes que hacer este calculo

 area=[A,B,A+D,B+C] area=[100,50,100+225,50+370] 

en codigo

 df=read_pdf(folder,area=[[100,50,325,420]] ,output_format="xlsx") 

El lector solo permite mediciones si el creador de PDF lo ha permitido. Encontré esto en su lugar: https://graphicdesign.stackexchange.com/a/81666

Breves pasos:

  1. Descargar SumatraPDF. También está disponible como zip, no necesita instalación.
  2. Abrir PDF con el lector de Sumatra.
  3. Presione ‘m’ – esto muestra la posición del cursor en la esquina superior izquierda.
  4. Use tabula con las opciones -p para la página, -a para el área. (arriba a la izquierda, abajo a la derecha)

Tuve el mismo problema, el código parecía ignorar la llamada del área. Se corrigió incluyendo “guess = False” en la línea de comando. Me gusta (nota que estoy usando la revisión 1.2.1):

 df = tabula.read_pdf(file_folder + file_name, guess=False, pages=1, stream=True , encoding="utf-8", area = (200.8125,64.6425,352.2825,496.1025), columns = (65.3,196.86,294.96,351.81,388.21,429.77))