Seleccione su idioma:  ukflag    span flag   
Daniel Martinez Capilla personal webpage - Thesis

Traductor de Lenguaje de Signos utilizando Microsoft Kinect XBOX 360
Una Máster tesis para el Erasmus Mundus in Computer Vision and Robotics Master (VIBOT 5)
por Daniel Martínez Capilla


Máster Tesis: Traductor de Lenguaje de Signos utilizando Microsoft Kinect XBOX 360

Subido por Admin el 5 de Junio, 2012

Video del resultado final de la tesis

Método

La Figura 2 muestra el diagrama de flujo para cada uno de los fotogramas que la cámara captura. Por cada fotograma, se obtienen los puntos de interés, se normalizan y finalmente se crea el descriptor. El modo de trabajo en cada momento (PROBANDO/ENTRENANDO), define a qué base de datos va a ser añadido este descriptor. Si el modo de trabajo actual es PROBANDO, y una vez se ha añadido el último fotograma del signo, el clasificador es el elemento que se encarga de comparar este signo con los signos del diccionario y dar como salida del sistema la palabra a la que pertenece este signo.

Block diagram

A) OBTENER LOS PUNTOS DE INTERES

El sistema usa los 6 puntos de interés que se muestran en la Figure 3. Estos puntos son las dos manos (LH,RH), los dos codos (LE,RE), el torso (T), y la cabeza (H). Los dos últimos son solamente usados para para normalizar los datos. También aquí se aplican diferentes pesos a los puntos de interés dependiendo de la importancia que tiene cada uno en la descripción del signo.

used joints                                

B) NORMALIZACION DE LOS DATOS

Invariante a la posición del usuario:
Todos los puntos de interés se representan con respecto al torso (T) para hacer que el sistema funcione independientemente de la posición que el usuario ocupe en la habitación.
 Invariante al tamaño del usuario:
Los puntos de interés son expresados usando coordenadas esféricas (Figure 4), y las distancias d son normalizadas por el factor dHT de la Figure 5 para hacer que el sistema funcione independientemente de la altura o tamaño del usuario.

spherical_coordinates                       modulus joints

C) DESCRIPTOR

Después de haber evaluado la importancia de cada uno de los parámetros d, θ, y ϕ, sólo d y ϕ parecen ser descriptivos. Es por eso que el descriptor final es un descriptor de 8 dimensiones como el de la Figure 6 y contiene los valores de d and ϕ para cada uno de los puntos de interés y cada uno de los fotogramas.

8d_descriptor

D) CLASIFICADOR

El primer clasificador que se propone es el Nearest Group Dynamic Time Warping (NG-DTW).  El DTW es un algoritmo que permite calcular el coeficiente de similitud de dos secuencias de datos que tienen diferente tamaño/duración. Después de calcular las similitudes entre el signo que el usuario ejecuta y los signos que estan en el diccionario, el signo de prueba es etiquetado o clasificado con el grupo de signos que tiene el coeficiente de similitud DTW medio más baja. En el caso del segundo clasificador (Nearest Neigbor DTW), el signo de prueba es etiquetado con el signo que tiene el coeficiente de similitud más bajo en lugar de con el grupo que tiene la similitud DTW media más baja.
dtw1


dtw2





Daniel Martínez Capilla

Subido por Admin el 4 de Abril, 2012

Personal picture
Acceda a mi currículum vitae.

Descargar

Vea online la presentación de mi Máster Tesis

Subido por Admin el 19 de Junio, 2012

Dani_vibotDay

Vea online la presentación de mi Máster Tesis sobre el "Traductor de Lenguaje de Signos utilizando Microsoft Kinect XBOX 360" que tuvo lugar el pasado 14 de Junio de 2012 en el VIBOT day. También puede acceder las publicaciones y/o descargar el código libre del proyecto.

LEER MAS

Cómo hacer funcionar Microsoft Kinect XBOX 360 desde cero

Subido por Admin el 4 de Abril, 2012

Este tutorial (también incluido en la memoria final del proyecto), intenta facilitar la instalación de Kinect en su ordenador. No fue algo fácil y por eso considero que es interesante compartir mi experiencia.

Descargar