Module: Descripteurs audio « chromas » |
proposé par :
- Geoffroy Peeters (geoffroy.peeters_at_telecom-paristech.fr)
- Roland Badeau (roland.badeau_at_telecom-paristech.fr)
|
Descriptif |
La représentation en chromas permet de répartir l’intensité d’un son complexe, potentiellement polyphonique sur une échelle musicale tempérée ramené sur un octave. Les chromas peuvent être calculés sur un signal audio avec différentes résolutions (sixième de ton, demi-ton, ..). Ils peuvent aussi être calculés sur partition (la résolution est automatiquement en demi-tons) mais différentes précisions en nombres d’harmoniques (1, 3, ..) peuvent être utilisées. Par exemple, pour un do4 sur la partition, le chroma théorique correspondant pour une résolution d’une harmonique est le vecteur C=(1,0,0,0,0,0,0,0,0,0,0,0) où les composantes représentent les valeurs de chromas pour les différentes notes (C, C#, D, .., B) . |
Ressources dont le module dépend |
|
Exemples d’utilisation du module |
- dans un système simple de reconnaissance des accords
- dans un système simple d’alignement entre musique et partition
|
Résultats attendus |
- connaissances : Compréhension de la représentation en chromas, Compréhension de son utilisation en reconnaissance d’accords ou de tonalité
- compétence : à l’issue de ce module vous aurez écrit en Java un programme qui calcule la représentation en chromas à partir d’un signal audio
- PAN 1: description du module, et du rôle des chromas
- PAN 2: étude biblio, pseudo-code, savoir expliquer avec ses propres mots le fonctionnement et le principe des chromas. Calcul de chromas théoriques à partir d’une représentation MIDI ou partition en utilisant une résolution à 1 ou 3 harmonique(s) (à l’aide de JAVA ou matlab/octave)
- PAN 3: mise en œuvre sur des données audio. Représentation en chromagramme (par analogie au spectrogramme) pour un segment musical simple
|
Volume |
- 4TH programmées pour un binôme
|
Module: Synthèse de la parole à partir du texte |
proposé par :
- Geoffroy Peeters (geoffroy.peeters_at_telecom-paristech.fr)
- Roland Badeau (roland.badeau_at_telecom-paristech.fr)
|
Descriptif |
La synthèse de la parole permet de vocaliser un texte. Ce module permet de réaliser un synthétiseur complet par concaténation d’éléments pré-enregistrés (e.g. les diphones) et permet ainsi de synthétiser n’importe quel mot. Pour la partie de « transcription graphème-phonème » (e.g. conversion du texte en suite de phonèmes), on utilisera un phonétiseur distribué librement (LIAPhon) qu’il s’agira de comprendre. Pour un système de synthèse à vocabulaire limité, on pourra se contenter de prophétiser manuellement les différents mots du vocabulaire. |
Ressources dont le module dépend |
- Bibliographie
- Une base de diphones sera (normalement) fournie
|
Exemples d’utilisation du module |
- dans un système où une information textuelle doit être vocalisée, ou dans le cadre d’une interface Homme-Machine
|
Résultats attendus |
- connaissances : Compréhension de l’algorithme de synthèse par concaténation de diphones, connaissances sur le traitement de la parole, Traitement du signal pour la concaténation de sons élémentaires
- compétence : à l’issue de ce module vous aurez écrit en Java un programme qui synthétise un texte à vocabulaire ouvert. Vous aurez aussi interfacé votre programme avec un phonétiseur distribué librement.
- livrable 1: Interfaçage avec le phonétiseur du LIA (LIAPhon) ou constitution d’un dictionnaire de mots phonétisés
- livrable 2: pseudo-code du programme de synthèse par concaténation de diphones
- livrable 3: code java + tests d’évaluation et d’intélligibilité sur des textes simples.
|
Volume |
- 12 TH programmées pour un binôme (avec intégration du phonétiseur LIAPhon)
- 6 TH pour un système à vocabulaire limité (sans intégration du phonétiseur LIAPhon).
|
Module: Programmation dynamique pour la reconnaissance de parole par DTW |
proposé par :
- Geoffroy Peeters (geoffroy.peeters_at_telecom-paristech.fr)
- Roland Badeau (roland.badeau_at_telecom-paristech.fr)
|
Descriptif |
La programmation dynamique (ou Dynamic programmming) est une approche qui permet, sous certaines conditions, d’obtenir la solution optimale à un problème de minimisation d’un critère d’erreur sans devoir considérer toutes les solutions possibles. Pour la reconnaissance vocale, elle permettra de comparer deux séquences de vecteurs de paramètres (par exemples deux séquences de vecteurs MFCC) en autorisant une déformation temporelle dynamique des séquences. Le problème se ramène à calculer la meilleure distance D(Tx, Ty) entre deux séquences x et y, où x et y peuvent être déformées temporellement suivant des contraintes pré-déterminées. |
Ressources dont le module dépend |
|
Exemples d’utilisation du module |
- dans un système simple de reconnaissance de la parole
- dans un système d’alignement entre musique et partition
|
Résultats attendus |
- connaissances : Compréhension de l’algorithme de programmation dynamique, Compréhension de son utilisation en reconnaissance de la parole
- compétence : à l’issue de ce module vous aurez écrit en Java un programme qui compare deux séquences de vecteurs (par ex. une séquence de vecteurs MFCC). Vous aurez au préalable testé votre algorithme sur des séquences simples de scalaires.
- PAN 1: description du module, et du rôle de la DTW
- PAN 2: étude biblio, pseudo-code, savoir expliquer avec ses propres mots le fonctionnement et le principe de la DTW. Démonstration sur un cas synthétique (à l’aide de JAVA ou matlab/octave)
- PAN 3 mise en oeuvre sur des données réelles. Evaluation des performances sur une base de données simple ou démo live.
|
Volume |
- 4TH programmées pour un binôme
|
Contact:
- Geoffroy Peeters (geoffroy.peeters_at_telecom-paristech.fr)
- Roland Badeau (roland.badeau_at_telecom-paristech.fr)
Descriptif
Cette page donne quelques liens vers des documents en synthèse et reconnaissance de la parole.
Présentation succincte sur la synthèse et Reconnaissance de la parole
Traitement de la parole
-
R. Boite, H. Bourlard, T. Dutoit, J. Hancq, and H. Leich. Traitement de la parole. Presses polytechniques et universitaires romandes,Lausanne, 2000.
- Calliope, « La parole et son Traitement Automatique, 1989
-
J. Benesty, M. Sondhi, Y. Huang, « Handbook of Speech Processing », Springer, 2008 (1176 pages !!)
-
G. Richard, « traitement de la parole », polycopié Télécom ParisTech
Reconnaissance de la parole
Synthèse de la parole
Travaux pratiques (cycle master) qui peuvent être utiles
Le site pédagogique de PACT