Proyecto ATRECSIDE – Algoritmos para el Reconocimiento y la Extraccción de Contenido Semántico en Imágenes de Documentos

Ministerio de Economía y Competitividad

Este proyecto se ha centrado en el estudio de la aplicación de las más recientes técnicas de aprendizaje automático para la extracción de contenido semántico en documentos digitalizados que incluyen texto manuscrito y mecanografiado, fotografías e ilustraciones. Dicho objetivo está en línea con las crecientes necesidades actuales de traspaso de información desde el mundo físico al mundo digital.

El principal avance derivado del proyecto ha sido el desarrollo de un sistema de reconocimiento de texto manuscrito offline que es estado del arte al compararlo con otros sistemas similares de la bibliografía. Este desarrollo se ha sustentado sobre numerosas publicaciones en revistas y congresos internacionales. En particular se ha realizado 6 publicaciones en revistas JCR, 2 en libros de la serie Lecure Notes y 4 en congresos internacionales. Además, se ha dirigido la digitalización del Archivo de Documentos Históricos de la empresa Osborne, creando una base de datos en castellano de documentos históricos manuscritos de acceso público.

Los siguientes puntos describen los principales desarrollos realizados:

• Un sistema para la predicción del género de las personas a partir de su escritura manuscrita.
• Un sistema que es capaz de determinar la actividad que está realizando una persona a partir de imágenes de la misma.
• Un sistema que permite la descripción lingüística de análisis de deforestación.
• Un método para mejorar la capacidad de las Redes de Neuronas.
• Un método para la inicialización del algoritmo k-Means aplicado a la clasificación de textos.
• Un sistema de reconocimiento de cadenas de dígitos manuscritos.
• Un sistema que reconoce texto manuscrito aprendiendo desde datos generados sintéticamente.