Ir al contenido principal

Entradas

Mostrando entradas de 2015

A method for K-Means seeds generation applied to text mining

Publicado en Statistical Methods and Applications In this paper, a methodology is proposed in order to produce a set of seeds later used as a starting point to K-Means-type unsupervised classification algorithms for text mining. Our proposal involves using the eigenvectors obtained from principal component analysis to extract initial seeds, upon appropriate treatment for search of lightly overlapping clusters which are also clearly identified by keywords. This work is motivated by the interest of the authors in the problem of identification of topics and themes previously unknown in short texts. Therefore, in order to validate the goodness of this method, it was applied on a sample of labeled e-mails (NG20) representing a gold standard within the field of text mining. Specifically, some corpora referenced in the literature have been used, configured in accordance to a mix of topics contained in the sample. The proposed method improves on the results of other state-of-the-art methods to whi

Proyecto ATRECSIDE – Algoritmos para el Reconocimiento y la Extraccción de Contenido Semántico en Imágenes de Documentos

Ministerio de Economía y Competitividad Este proyecto se ha centrado en el estudio de la aplicación de las más recientes técnicas de aprendizaje automático para la extracción de contenido semántico en documentos digitalizados que incluyen texto manuscrito y mecanografiado, fotografías e ilustraciones. Dicho objetivo está en línea con las crecientes necesidades actuales de traspaso de información desde el mundo físico al mundo digital. El principal avance derivado del proyecto ha sido el desarrollo de un sistema de reconocimiento de texto manuscrito offline que es estado del arte al compararlo con otros sistemas similares de la bibliografía. Este desarrollo se ha sustentado sobre numerosas publicaciones en revistas y congresos internacionales. En particular se ha realizado 6 publicaciones en revistas JCR, 2 en libros de la serie Lecure Notes y 4 en congresos internacionales. Además, se ha dirigido la digitalización del Archivo de Documentos Históricos de la empresa Osborne, creando