Articles of ocr

“Agregando” nuevas fonts a Tesseract eng.traineddata

Por lo que sé, Tesseract 3.x viene con 6 fonts en inglés (corríjame si me equivoco). Necesito entrenar a Tesseract para más 5 tipos de fonts. Solo necesito letras mayúsculas y dígitos (sin caracteres especiales ni símbolos). Seguí varios procesos, por ejemplo: Agregar nuevas fonts al motor OCR de Tesseract 3 y también usé herramientas […]

¿Qué opciones de OCR existen más allá de Tesseract?

He usado Tesseract un poco y los resultados dejan mucho que desear. Actualmente estoy detectando imágenes muy pequeñas (35×15, sin borde, pero he intentado agregar una con imagemgick sin ninguna ventaja); van desde 2 hasta 5 y son una fuente bastante confiable, sin embargo, los caracteres son lo suficientemente variables como para que el simple […]

Detecta el área de texto en una imagen usando python y opencv

Quiero detectar el área de texto de las imágenes usando python 2.7 y opencv 2.4.9 y dibujar un área de rectángulo a su alrededor. Como se muestra en la imagen de ejemplo a continuación. Soy nuevo en el procesamiento de imágenes, así que cualquier idea de cómo hacerlo será apreciada.

Mi propio progtwig OCR en Python

Todavía soy un principiante, pero quiero escribir un progtwig de reconocimiento de caracteres. Este progtwig no está listo todavía. Y edité mucho, por lo que los comentarios pueden no coincidir exactamente. Usaré la conectividad 8 para el etiquetado de componentes conectados. from PIL import Image import numpy as np im = Image.open(“D:\\Python26\\PYTHON-PROGRAMME\\bild_schrift.jpg”) w,h = im.size […]

Detección de espacio (barra) entre palabras en una fuente inclinada

Escribí una secuencia de comandos de python que detecta alfabetos codificados en una imagen. La secuencia de comandos está utilizando la coincidencia de plantillas de openCV para hacer coincidir los caracteres / alfabetos incrustados en la imagen. La detección funciona bien, excepto por el carácter de espacio (barra espaciadora). Aquí hay una imagen de muestra. […]

¿Cómo puedo ocultar la ventana de la consola cuando ejecuto tesseract con pytesser?

Soy nuevo en Python. Estoy trabajando en un proyecto de OCR. Estoy usando Python 2.7.12 en Windows 7. He instalado tesseract en la ruta “C: \ Archivos de progtwig (x86) \ Tesseract-OCR” Encontré la biblioteca pytesser v0.0.2 aquí: https://searchcode.com/codesearch/view/11386640/# Cuando ejecuto el código: from pytesser import * image=Image.open(‘dis.tiff’) text=image_to_string(image) print (text) Llama a tesseract y […]

Extracción de texto del cuaderno

Estoy tratando de extraer texto escrito a mano de las imágenes. Uso python con funciones opencv, como por ejemplo find_contours. Todo iba bastante bien cuando usé imágenes como esta: Funciona bien porque tengo un fondo liso. Pero luego lo probé con esta imagen: Debido a las líneas del cuaderno en el fondo, no puedo extraer […]

Respuesta 400 del OCR de la API de Google Vision con una cadena base64 de imagen especificada

He leído ¿Cómo usar la API de Google Vision para la detección de texto desde una imagen codificada en base64? pero no ayuda en absoluto. La biblioteca de cliente en la nube no es deseable para mí porque estoy procesando muchas imágenes (por ejemplo, girando, recortando, cambiando el tamaño, etc.) antes y durante la OCR. […]

Python: Cómo hacer caracteres OCR cruzados por una línea horizontal

Tengo un lote de imágenes que me gustaría escanear. Algunos de ellos tienen una línea horizontal que cruza los caracteres que deben ser escaneados, que se verían así: He hecho un progtwig que es capaz de eliminar la línea horizontal: import cv2 import numpy as np img = cv2.imread(‘image.jpg’,0) # Applies threshold and inverts the […]

Python, pyPdf, error de Adobe OCR en PDF: filtro / lzwdecode no compatible

Mis cosas: python 2.6 64 bit (con pyPdf-1.13.win32.exe instalado). Ala IDE. Windows 7 64 bit. Tuve el siguiente error: Error no implementado: filtro no compatible / LZWDecode Cuando ejecuté el siguiente código: from pyPdf import PdfFileWriter, PdfFileReader import sys, os, pyPdf, re path = ‘C:\\Users\\Homer\\Documents\\’ # This is where I put my pdfs filelist = […]