Convolutional Neural Networks and Long Short-Term Memory for skeleton-based human activity and hand gesture recognition

Publicado en Patter Recognition (PDF)

En este trabajo, abordamos los problemas de la actividad humana y el reconocimiento de los gestos de las manos utilizando secuencias de datos en 3D obtenidas a partir de esqueletos de cuerpo entero y de manos, respectivamente. Para ello, proponemos un enfoque basado en el aprendizaje profundo para que el 3D temporal plantee problemas de reconocimiento basado en la combinación de una Red Neural Convolucional (CNN) y una red recurrente de Larga Memoria a Corto Plazo (LSTM). También presentamos una estrategia de formación en dos etapas que, en primer lugar, se centra en la formación de CNN y, en segundo lugar, ajusta el método completo (CNN+LSTM). Las pruebas experimentales demostraron que nuestro método de entrenamiento obtiene mejores resultados que una estrategia de entrenamiento de una sola etapa. Además, proponemos un método de aumento de datos que también ha sido validado experimentalmente. Por último, realizamos un amplio estudio experimental sobre puntos de referencia de datos disponibles públicamente. Los resultados obtenidos muestran cómo el enfoque propuesto alcanza un rendimiento de vanguardia en comparación con los métodos identificados en la literatura. Los mejores resultados se obtuvieron para conjuntos de datos pequeños, donde la estrategia de aumento de datos propuesta tiene mayor impacto.