Multiview 3D human pose estimation using improved least-squares and LSTM networks

Publicado en Neurocomputing

En este artículo se presenta un método para estimar la pose del cuerpo humano en 3D a partir de múltiples vistas 2D utilizando aprendizaje profundo. El sistema está formado una sucesión de subsistemas. Primeramente, se obtienen las poses 2D usando una red de neuronas profunda que detecta los puntos claves de un esqueleto simplificado del cuerpo en las vistas disponibles. Luego, se recosntruyen las coordenadas 3D de cada punto utilizando una propuesta original, basada en optimización de mínimos cuadrados, que analiza la calidad de las anteriores detecciones 2D para decidir si aceptarlas o no. Una vez que se dispone de las poses 3D, se estima la posición completa del cuerpo, teniendo en cuenta la historia pasada para refinarla mediante una red LSTM. En la parte experimental, el artículo ofrece unos resultados competitivos cuando se compara con trabajos representativos de la literatura.

In this paper we present a deep learning based method to estimate the human pose in 3D when multiple 2D views are available. Our system is composed of a cascade of specialized systems. Firstly, 2D poses are obtained using a deep neural network for the detection of skeleton keypoints in each available view. Then, the 3D coordinates of each keypoint are reconstructed with our proposed least squares optimization method, that analyzes the quality of the 2D detections to decide either to consider or reject them. Once the 3D poses are obtained for each time step, full body pose estimation is performed with a long short-term memory (LSTM) neural network, that takes advantage of the process history to refine the final pose estimation. We provide evidence of the suitability of our contributions in an extensive experimental study. Finally, we were able to prove experimentally that our method obtains competitive results when it is compared to recent representative works in the literature.