Ratio: 4 / 5

Inicio activadoInicio activadoInicio activadoInicio activadoInicio desactivado
 

Tesseract es un motor de OCR de código abierto, disponible bajo la licencia Apache 2.0. Se puede utilizar directamente o (para los programadores) utilizando un API. Es compatible con más de 60 idiomas.

 

Tesseract no tiene una GUI (Interfaz Gráfica de Usuario) integrada, es un programa de línea de comando.

 

Instalación

 

Hay dos partes para instalar, el motor en sí y el soporte ortográfico para un idioma, por ejemplo, si no dispones del soporte para español la ñ o letras acentuadas no te aparecerán correctamente el archivo de salida.

 

Instalación sobre Windows

 

EL instalador para Windows lo puedes descargar desde el enlace que puedes ver abajo. Esta descarga incluye el programa y soporte para el idioma inglés.

 

Descargar gratisTesseract OCR

Tesseract-ocr

Tesseract-ocr

Actualizado: 30-09-2014

 

Para usar otro idioma, descargar los archivos para tener soporte apropiado al idioma que necesites desde este enlace, datos de entrenamiento en otros idiomas.

 

Descargar Tesseract OCR soporte español

Tesseract-ocr soporte español

Tesseract-ocr soporte español

Actualizado: 01-11-2016

 

Una vez hayas descargado el archivo descomprímelo usando cualquier herramienta de descompresión de archivos, por ejemplo 7-zip,  y copia los archivos al directorio 'tessdata', que probablemente esté ubicado en C:\Archivos de programa\Tesseract OCR\tessdata.

 

Ejecución de Tesseract

 

Tesseract es un programa de línea de comandos como comentaba anteriormente, por lo que lo primero que haréis es abrir terminal o símbolo del sistema.

 

El comando se utiliza de esta manera:

 


C:\Archivos de programa\Tesseract-OCR>tesseract nombrearchivoimagen ficherosalida [-l lang ] [-pagesegmode psm ] [ configfile ...]

 

Así que el uso básico para hacer OCR de una imagen, por ejemplo, llamada "miimagen.png" y guardar el resultado en el archivo "salidaocr" sería:

 

Es conveniente crear o utilizar una carpeta (directorio) de trabajo diferente a donde está instalada la aplicación, para los ejemplos he utilizado la carpeta temp en C:\.

 

Aviso

El nombre de la carpeta y ruta completa de trabajo no deben contener espacios en blanco sino el programa fallará, por ejemplo, si creas una carpeta debajo de C:\Archivos de programa\Tesseract-OCR el programa dará error ya que C:\Archivos de programa contiene espacios en blanco.

 


C:\Archivos de programa\Tesseract-OCR>tesseract C:\temp\miimagen.png C:\temp\salidaocr

 

Ejecución de Tesseract con soporte para español

 

Para que Tesseract-ocr tenga el soporte de los caracteres en españolutiliza la opción -l, por ejemplo:

 


C:\Archivos de programa\Tesseract-OCR>tesseract C:\temp\miimagen.png C:\temp\salidaocr -l spa

 

Tesseract también incluye el modo hOCR, que produce un archivo HTML especial con las coordenadas de cada palabra. Esto puede ser usado para crear un PDF de búsqueda.

 

Para usarlo, utiliza la opción 'hocr' en la línea de comando así:

 


C:\Archivos de programa\Tesseract-OCR>tesseract C:\temp\miimagen.png C:\temp\salidaocr hocr