Tous les articles par grichard

module: audio et langage, module: traitement de l'information

Module : Descripteurs audio "chromas"

10/12/2013 grichard

Module: Descripteurs audio « chromas »

proposé par :

Geoffroy Peeters (geoffroy.peeters_at_telecom-paristech.fr)
Roland Badeau (roland.badeau_at_telecom-paristech.fr)

Descriptif

La représentation en chromas permet de répartir l’intensité d’un son complexe, potentiellement polyphonique sur une échelle musicale tempérée ramené sur un octave. Les chromas peuvent être calculés sur un signal audio avec différentes résolutions (sixième de ton, demi-ton, ..). Ils peuvent aussi être calculés sur partition (la résolution est automatiquement en demi-tons) mais différentes précisions en nombres d’harmoniques (1, 3, ..) peuvent être utilisées. Par exemple, pour un do4 sur la partition, le chroma théorique correspondant pour une résolution d’une harmonique est le vecteur C=(1,0,0,0,0,0,0,0,0,0,0,0) où les composantes représentent les valeurs de chromas pour les différentes notes (C, C#, D, .., B) .

Ressources dont le module dépend

Bibliographie
- Article original sur la reconnaissance d’accords à l’aide de chromas
- Thèse de L. Oudre sur la reconnaissance d’accords à l’aide de chromas (pour approfondir)

Exemples d’utilisation du module

dans un système simple de reconnaissance des accords
dans un système simple d’alignement entre musique et partition

Résultats attendus

connaissances : Compréhension de la représentation en chromas, Compréhension de son utilisation en reconnaissance d’accords ou de tonalité
compétence : à l’issue de ce module vous aurez écrit en Java un programme qui calcule la représentation en chromas à partir d’un signal audio

PAN 1: description du module, et du rôle des chromas
PAN 2: étude biblio, pseudo-code, savoir expliquer avec ses propres mots le fonctionnement et le principe des chromas. Calcul de chromas théoriques à partir d’une représentation MIDI ou partition en utilisant une résolution à 1 ou 3 harmonique(s) (à l’aide de JAVA ou matlab/octave)
PAN 3: mise en œuvre sur des données audio. Représentation en chromagramme (par analogie au spectrogramme) pour un segment musical simple

Volume

4TH programmées pour un binôme

module: audio et langage, module: traitements

Module : Synthèse de la parole

04/12/2012 grichard Laisser un commentaire

Module: Synthèse de la parole à partir du texte

proposé par :

Geoffroy Peeters (geoffroy.peeters_at_telecom-paristech.fr)
Roland Badeau (roland.badeau_at_telecom-paristech.fr)

Descriptif

La synthèse de la parole permet de vocaliser un texte. Ce module permet de réaliser un synthétiseur complet par concaténation d’éléments pré-enregistrés (e.g. les diphones) et permet ainsi de synthétiser n’importe quel mot. Pour la partie de « transcription graphème-phonème » (e.g. conversion du texte en suite de phonèmes), on utilisera un phonétiseur distribué librement (LIAPhon) qu’il s’agira de comprendre. Pour un système de synthèse à vocabulaire limité, on pourra se contenter de prophétiser manuellement les différents mots du vocabulaire.

Ressources dont le module dépend

Bibliographie
- Quelques liens rapides
- Eléments de synthèse de la Parole pour PACT
- Phonétiseur du LIA : LIAPhon (http://download.gna.org/lliaphon/)
- Une base de diphones sera (normalement) fournie

Exemples d’utilisation du module

dans un système où une information textuelle doit être vocalisée, ou dans le cadre d’une interface Homme-Machine

Résultats attendus

connaissances : Compréhension de l’algorithme de synthèse par concaténation de diphones, connaissances sur le traitement de la parole, Traitement du signal pour la concaténation de sons élémentaires
compétence : à l’issue de ce module vous aurez écrit en Java un programme qui synthétise un texte à vocabulaire ouvert. Vous aurez aussi interfacé votre programme avec un phonétiseur distribué librement.
livrable 1: Interfaçage avec le phonétiseur du LIA (LIAPhon) ou constitution d’un dictionnaire de mots phonétisés
livrable 2: pseudo-code du programme de synthèse par concaténation de diphones
livrable 3: code java + tests d’évaluation et d’intélligibilité sur des textes simples.

Volume

12 TH programmées pour un binôme (avec intégration du phonétiseur LIAPhon)
6 TH pour un système à vocabulaire limité (sans intégration du phonétiseur LIAPhon).

module: audio et langage, module: traitements

Module : Programmation dynamique pour la reconnaissance de parole par DTW

30/11/2012 grichard Laisser un commentaire

Module: Programmation dynamique pour la reconnaissance de parole par DTW

proposé par :

Geoffroy Peeters (geoffroy.peeters_at_telecom-paristech.fr)
Roland Badeau (roland.badeau_at_telecom-paristech.fr)

Descriptif

La programmation dynamique (ou Dynamic programmming) est une approche qui permet, sous certaines conditions, d’obtenir la solution optimale à un problème de minimisation d’un critère d’erreur sans devoir considérer toutes les solutions possibles. Pour la reconnaissance vocale, elle permettra de comparer deux séquences de vecteurs de paramètres (par exemples deux séquences de vecteurs MFCC) en autorisant une déformation temporelle dynamique des séquences. Le problème se ramène à calculer la meilleure distance D(Tx, Ty) entre deux séquences x et y, où x et y peuvent être déformées temporellement suivant des contraintes pré-déterminées.

Ressources dont le module dépend

Bibliographie
- Eléments de Reconnaissance de la Parole pour PACT

Exemples d’utilisation du module

dans un système simple de reconnaissance de la parole
dans un système d’alignement entre musique et partition

Résultats attendus

connaissances : Compréhension de l’algorithme de programmation dynamique, Compréhension de son utilisation en reconnaissance de la parole
compétence : à l’issue de ce module vous aurez écrit en Java un programme qui compare deux séquences de vecteurs (par ex. une séquence de vecteurs MFCC). Vous aurez au préalable testé votre algorithme sur des séquences simples de scalaires.
PAN 1: description du module, et du rôle de la DTW
PAN 2: étude biblio, pseudo-code, savoir expliquer avec ses propres mots le fonctionnement et le principe de la DTW. Démonstration sur un cas synthétique (à l’aide de JAVA ou matlab/octave)
PAN 3 mise en oeuvre sur des données réelles. Evaluation des performances sur une base de données simple ou démo live.

Volume

4TH programmées pour un binôme

module: audio et langage, module: traitements

Bibliographie : Synthèse et Reconnaissance de la parole

23/11/2011 grichard 3 commentaires

Contact:

Geoffroy Peeters (geoffroy.peeters_at_telecom-paristech.fr)
Roland Badeau (roland.badeau_at_telecom-paristech.fr)

Descriptif

Cette page donne quelques liens vers des documents en synthèse et reconnaissance de la parole.

Présentation succincte sur la synthèse et Reconnaissance de la parole

Traitement de la parole

R. Boite, H. Bourlard, T. Dutoit, J. Hancq, and H. Leich. Traitement de la parole. Presses polytechniques et universitaires romandes,Lausanne, 2000.
Calliope, « La parole et son Traitement Automatique, 1989
J. Benesty, M. Sondhi, Y. Huang, « Handbook of Speech Processing », Springer, 2008 (1176 pages !!)
G. Richard, « traitement de la parole », polycopié Télécom ParisTech

Reconnaissance de la parole

G. Richard « chapitre V. Reconnaissance vocale », polycopié Télécom ParisTech

Synthèse de la parole

C. d’Alessandro et G. Richard, “Synthèse de la parole à partir du texte”, Collection Techniques de l’ingénieur, Paris, 2013 (preprint).
O. Boeffard et C. d’Alessandro, « Synthèse de la parole » dans Analyse, Synthèse et Codage de la parole, Hermès, Lavoisier, 2002.

Travaux pratiques (cycle master) qui peuvent être utiles

Le site pédagogique de PACT