Ir al contenido principal

Publicación en revista: A Pix2Pix Architecture for Complete Offline Handwritten Text Normalization

Publicación en Sensors.

Este artículo presenta el uso de un modelo entrenable Pix2Pix, un tipo específico de red adversaria generativa condicional, como método para normalizar imágenes de texto escrito a mano. En el ámbito del reconocimiento de texto escrito a mano off-line, a lo largo de los años se han desarrollado numerosos algoritmos de normalización y preprocesamiento antes de aplicar los modelos de reconocimiento automático a imágenes escaneadas de texto manuscrito.  Estos algoritmos han demostrado eficacia para mejorar el rendimiento general de las arquitecturas de reconocimiento.  Sin embargo, muchos de estos métodos dependen en gran medida de estrategias heurísticas que no se integran perfectamente con la propia arquitectura de reconocimiento. Además, este algoritmo se puede integrar perfectamente como etapa inicial de cualquier arquitectura de aprendizaje profundo diseñada para tareas de reconocimiento escrito a mano. Además, este enfoque facilita el entrenamiento de los componentes de normalización y reconocimiento como un todo unificado, manteniendo cierta interpretabilidad de cada módulo.  La normalización propuesta aprende de una combinación de transformaciones heurísticas aplicadas a imágenes de texto, con el objetivo de mitigar el impacto de la variabilidad de la escritura intrapersonal entre diferentes escritores.  Como resultado, logra normalizaciones de la pendiente y de la inclinación del texto, junto con otros objetivos de preprocesamiento convencionales, como normalizar el tamaño de los ascendentes y descendentes del texto.  Demostraremos que la arquitectura propuesta replica, y en ciertos casos supera, los resultados de un algoritmo heurístico ampliamente utilizado en dos métricas y también cuando se integra como el primer paso de una arquitectura de reconocimiento profundo.