Articles of tesseract

Tesseract utiliza subconjunto de letras

Estoy usando el paquete tesseract–ocr en Ubuntu Linux, lo he estado usando por un tiempo y creo que para mejorar la precisión del OCR solo necesito un subconjunto de letras del alfabeto. Las letras que necesito son: 0123456789abcdefghijklmnopqrstuvwxyz y solo eso, ni siquiera las mayúsculas, ¿alguien puede ayudarme a indicar tesseract para que coincida solo […]

“ValueError: no se pueden filtrar las imágenes de la paleta” durante la conversión de Pytesseract

Tiene problemas con este código de error en relación con el siguiente código para Pytesseract. (Python 3.6.1, Mac OSX) importar solicitudes de importación de pytesseract desde PIL importar Imagen desde PIL importar ImageFilter desde io import StringIO, BytesIO def process_image(url): image = _get_image(url) image.filter(ImageFilter.SHARPEN) return pytesseract.image_to_string(image) def _get_image(url): r = requests.get(url) s = BytesIO(r.content) img […]

¿Cómo instalar leptonica + tesseract en Windows sin Visual Studio para usar en Anaconda?

Quería realizar el reconocimiento de texto de las imágenes y quiero usar Python. Instalé anaconda. Ahora quiero instalar Tesseract pero también necesito instalar Leptonica. No encontré ninguna instrucción clara de cómo hacerlo en windows. Para Leptonica no quiero instalar Visual Studio. Entonces, ¿alguien podría proporcionar instrucciones claras sobre cómo instalar leptonica y tesseract en Windows […]

image_to_string no funciona en Mac

Estoy tratando de seguir este ejemplo de pytesser ( enlace ) en un Mac Maverick. >>> from pytesser import * >>> im = Image.open(‘phototest.tif’) >>> text = image_to_string(im) Pero, en la última línea me sale este mensaje de error: Traceback (most recent call last): File “”, line 1, in File “pytesser.py”, line 31, in image_to_string […]

Error Tesseract no encontrado

Estoy tratando de usar pytesseract en python pero siempre termino con el error: “TesseractNotFoundError: tesseract no está instalado o no está en su ruta” pytesseract y tesseract están instalados en el sistema. Soy nuevo en Python, así que realmente apreciaré si alguien me puede ayudar con esto.

Usando C API de tesseract 3.02 con ctypes y cv2 en python

Estoy tratando de usar Tesseract 3.02 con ctypes y cv2 en python. Tesseract proporciona un conjunto de API de estilo C expuesto a DLL, uno de ellos es el siguiente: TESS_API void TESS_CALL TessBaseAPISetImage(TessBaseAPI* handle, const unsigned char* imagedata, int width, int height, int bytes_per_pixel, int bytes_per_line); Hasta ahora, mi código es el siguiente: tesseract […]

“Agregando” nuevas fonts a Tesseract eng.traineddata

Por lo que sé, Tesseract 3.x viene con 6 fonts en inglés (corríjame si me equivoco). Necesito entrenar a Tesseract para más 5 tipos de fonts. Solo necesito letras mayúsculas y dígitos (sin caracteres especiales ni símbolos). Seguí varios procesos, por ejemplo: Agregar nuevas fonts al motor OCR de Tesseract 3 y también usé herramientas […]

¿Qué opciones de OCR existen más allá de Tesseract?

He usado Tesseract un poco y los resultados dejan mucho que desear. Actualmente estoy detectando imágenes muy pequeñas (35×15, sin borde, pero he intentado agregar una con imagemgick sin ninguna ventaja); van desde 2 hasta 5 y son una fuente bastante confiable, sin embargo, los caracteres son lo suficientemente variables como para que el simple […]

¿Cómo puedo ocultar la ventana de la consola cuando ejecuto tesseract con pytesser?

Soy nuevo en Python. Estoy trabajando en un proyecto de OCR. Estoy usando Python 2.7.12 en Windows 7. He instalado tesseract en la ruta “C: \ Archivos de progtwig (x86) \ Tesseract-OCR” Encontré la biblioteca pytesser v0.0.2 aquí: https://searchcode.com/codesearch/view/11386640/# Cuando ejecuto el código: from pytesser import * image=Image.open(‘dis.tiff’) text=image_to_string(image) print (text) Llama a tesseract y […]

UnicodeDecodeError con Tesseract OCR en Python

Estoy tratando de extraer texto de un archivo de imagen utilizando Tesseract OCR en Python, pero me estoy enfrentando a un error que me permite averiguar cómo tratar con él. ¡todo mi entorno es bueno ya que probé una imagen de muestra con el ocr en python! aquí está el código from PIL import Image […]