Module : Programmation dynamique pour la reconnaissance de parole par DTW

Module: Programmation dynamique pour la reconnaissance de parole par DTW
proposé par :

  • Geoffroy Peeters (geoffroy.peeters_at_telecom-paristech.fr)
  • Roland Badeau (roland.badeau_at_telecom-paristech.fr)
Descriptif
La programmation dynamique (ou Dynamic programmming) est une approche qui permet, sous certaines conditions, d’obtenir la solution optimale à un problème de minimisation d’un critère d’erreur sans devoir considérer toutes les solutions possibles. Pour la reconnaissance vocale, elle permettra de comparer deux séquences de vecteurs de paramètres (par exemples deux séquences de vecteurs MFCC) en autorisant une déformation temporelle dynamique des séquences. Le problème se ramène à calculer la meilleure distance D(Tx, Ty) entre deux séquences x et y, où x et y peuvent être déformées temporellement suivant des contraintes pré-déterminées.
Ressources dont le module dépend
Exemples d’utilisation du module
  • dans un système simple de reconnaissance de la parole
  • dans un système d’alignement entre musique et partition
Résultats attendus
  • connaissances : Compréhension de l’algorithme de programmation dynamique, Compréhension de son utilisation en reconnaissance de la parole
  • compétence : à l’issue de ce module vous aurez écrit en Java un programme qui compare deux séquences de vecteurs (par ex. une séquence de vecteurs MFCC). Vous aurez au préalable testé votre algorithme sur des séquences simples de scalaires.
  • PAN 1: description du module, et du rôle de la DTW
  • PAN 2: étude biblio, pseudo-code, savoir expliquer avec ses propres mots le fonctionnement et le principe de la DTW. Démonstration sur un cas synthétique (à l’aide de JAVA ou matlab/octave)
  • PAN 3 mise en oeuvre sur des données réelles. Evaluation des performances sur une base de données simple ou démo live.
Volume
  • 4TH programmées pour un binôme

Laisser un commentaire