La fuente no puede ser extraída por PDFMiner

Estoy convirtiendo algunos informes en formato PDF a texto sin formato utilizando PDFMiner y un montón de mis archivos PDF de entrada solo salen con un par de líneas reconocidas y luego una lista de (cid:% d) un poco como esto …

Reporte de inspección

(cid: 4) (cid: 5) (cid: 6) (cid: 7) (cid: 8) (cid: 9) (cid: 10) (cid: 9) (cid: 11) (cid: 9) (cid: 12) (cid: 9) (cid: 5) (cid: 13) (cid: 9) (cid: 14) (cid: 8) (cid: 15) (cid: 16) (cid: 9) (cid: 12) (cid: 17) (cid: 18) (cid: 13) (cid: 19) (cid: 20) (cid: 21) (cid: 8) (cid: 22) (cid: 23) (cid: 18) (cid: 12) (cid: 6) (cid: 22) (cid: 24) (cid: 25) (cid: 5) (cid: 26) (cid: 27) (cid: 9) (cid: 13) (cid: 22) (cid: 6) (cid: 18) (cid: 5) (cid: 5) (cid: 8) (cid: 15) (cid: 16) (cid: 9) (cid: 12)

Comprobándolo, creo que el problema es que la mayor parte del documento está en una fuente que se resiste a ser extraída. Depurar el problema ha sido un poco extraño porque la fuente pareció cambiar durante la noche (no preguntes cómo, simplemente lo hizo).

No estoy seguro de lo que podría ser significativo, pero hoy la fuente tiene propiedades:

name = ‘font0000000018f29a3e’ – cidcoding = ‘Adobe-Identity’- unicode_map =’ UnicodeMap: / Adobe-Identity-UCS ‘- unicode_map.cid2unichr = {}

Estoy usando 2.7 en un mac y he probado algunas cosas

  1. PyPDF2
  2. Copiar y pegar en textedit (los caracteres están en blanco)
  3. Desinstalación y reinstalación con cmaps reconstruidos.
  4. Apagar la máquina y volverla a encender

Para referencia, los informes son todos de forma similar, uno de los cuales se puede encontrar aquí.

http://www.ofsted.gov.uk/provider/files/959173/urn/118074.pdf

El problema se aplica a todos los informes publicados antes de septiembre de 2010