Archives de catégorie : module: audio et langage

module: audio et langage, module: machine learning, module: traitements

Machine Learning: Biblio et TP Perceptron

25/11/2016 machab

Bibliographie

Lire ces deux chapitres d’un cours de machine learning de l’université de Stanford (orienté pour la classification d’images mais beaucoup d’idées restent les mêmes pour d’autres types de données) :
http://cs231n.github.io/classification/
http://cs231n.github.io/linear-classify/
Il faut surtout comprendre et arriver à bien distinguer les notions suivantes : « features » (caractéristiques), « labels » (classes), « feature extraction », familles de classifieurs (k-nn, arbre décisionnel, modèles linéaires, etc), « loss function » (fonction de coût), « hyperparameters » (hyperparamètres), « cross validation » (validation croisée). N’hésitez pas à compléter avec des recherches personnelles (cours/tuto en ligne, wikipedia, etc).

TP sur le Perceptron

Le TP/tuto sur le perceptron est disponible à cette adresse :
http://nbviewer.jupyter.org/github/kgourgou/Linear-Perceptron/blob/master/Perceptron-Algorithm.ipynb
(format notebook avec plusieurs cellules de code)
Vous devez comprendre chaque étape du tuto et reproduire les figures vous-même. Il n’y a pas de questions ni de rapport à rendre.

Conseils/Debug

– Pour ceux n’ayant pas d’installation de python, je recommande d’installer la distribution Anaconda Python 2.7 (dispo ici : https://www.continuum.io/downloads )
– installer le package python « seaborn »
– copier/coller chaque cellule de code les unes à la suite des autres dans un script python (.py)
– dans la 1ere cellule, effacer la ligne « %matplotlib inline » (qui n’est utile que si vous utilisez un notebook au lieu d’un script .py)
– pour visualiser la figure produite par une cellule de code, ajouter la ligne « pl.show() » à la fin de la cellule
– pour les utilisateurs de python 3 qui ont une erreur avec « xrange », utiliser « range » à la place

Mastane ACHAB (mastane.achab_at_telecom-paristech.fr)

module: audio et langage, module: traitements

Module : Synthèse sonore

17/09/2014 Bertrand

Contact : Roland Badeau (roland.badeau_at_telecom-paristech.fr)

Descriptif
La synthèse sonore regroupe l’ensemble des procédés et algorithmes destinés à produire des sons musicaux. Ces procédés sont utiles notamment pour mettre en son des morceaux de musique décrits de manière symbolique (partition, format MIDI, format textuel). Ils peuvent être différenciés selon qu’ils sont fondés,

1-sur un modèle de signal : on construit des formes d’onde qui sont ensuite utilisées pour fabriquer le son. Exemples :

synthèse additive : le son est reconstruit en additionnant des composantes élémentaires comme des partiels (composantes sinusoïdales) d’un son de cloche ;

synthèse granulaire : c’est un cas particulier de synthèse additive mais cette fois les formes élémentaires sont localisées en temps et en fréquence (sinusoïdes modulées en amplitude par des courbes en cloche) ;

synthèse à table d’onde (dite également « par échantillonnage ») : le son est reconstruit par rééchellonnage en temps et/ou fréquence de formes d’onde élémentaires contenues en mémoire ;

2- sur un modèle de production : on choisit les paramètres d’un modèle mettant en relation des éléments sources et des opérateurs. Exemples :

synthèse par modulation de fréquence (FM) : on connecte des opérateurs élémentaires tels que oscillateurs, additionneurs, gains et tables de lecture pour produire le son. La cascade de deux oscillateurs sinusoïdaux produit une configuration élémentaire de synthèse FM;

synthèse source/filtre ;

3- sur la discrétisation d’un modèle physique de fonctionnement d’un instrument. Cette synthèse, dite par modèle physique, vise à reproduire le comportement réel de l’instrument via une description mathématique en terme de source, d’équations d’évolution (ou de propagation) et de conditions aux limites.

synthèse par discrétisation des équations de propagation (différences finies ou éléments finis), description physique de l’interaction avec la source et simulation du rayonnement acoustique ;

synthèse par lignes de transmission : adaptées aux propagations mono-dimensionnelles comme les cordes (méthode de Karplus-Strong) ou les instruments à vent (tubes acoustiques).

Le composant dans le projet PACT
Parmi ces diverses méthodes, les méthodes les plus susceptibles d’être mise en œuvre dans PACT, de part leur facilité d’implémentation et leur souplesse d’utilisation sont préférentiellement (CTU=connaissances techniques utiles) :

la synthèse FM (ici des slides joints), CTU: Fourier, modulation de fréquence

la synthèse par rééchantillonnage, CTU: Echantillonnage, Interpolation, Eléments sur les gammes musicales

la synthèse source-filtre (ici un document joint), CTU: Fourier, Filtrage, mécanismes de production vocale

la synthèse additive sinusoïdale ou granulaire, CTU: Fourier, Ondelettes

la synthèse de Karplus-Strong (ici des slides joints), CTU : Production du son dans les instruments à cordes, filtrage

Documents pour étudier :

cours rapide sur la synthèse en général, plusieurs méthodes présentées : synthese_FC
synthèse FM en détail : Cours synthèse FM

Bibliographie et sites web

Audionumérique (C. Roads), dispo en bibliothèque

Viewpoints on the history of Digital Synthesis (J. Smith), on-line (interne/externe)

lien culturel sur la synthèse par modèle physique : http://interstices.info/jcms/c_6167/modelisation-numerique-de-la-guitare-acoustique

Outils de prototypage
FM-dream (freeware, archive fournie) : permet de tester des configurations rapidement.

Les composants SES associés :
Usages de la synthèse et des effets sonores (influences de la généralisation des sons électroniques, pourrait rentrer dans une question plus vaste de l’influence de la technologie)
Economie et marché de la synthèse sonore.

module: audio et langage, module: traitements

Module : Détection d’attaque / fonction de détection

12/12/2013 Jean-Claude Dufourd

Titre du module : Détection d’attaque

proposé par :

Geoffroy Peeters (geoffroy.peeters_at_telecom-paristech.fr)
Roland Badeau (roland.badeau_at_telecom-paristech.fr)

Descriptif

Le mot « attaque » désigne le début d’un évènement sonore, et par extension, l’instant correspondant ou par exemple, une note est jouée. Détecter ces attaques est un aspect fondamental nécessaire dans les applications d’inférences rythmique (tempo, métrique, mesure) et plus généralement dans l’analyse de scènes audio. La fonction de détection est le terme utilisé pour décrire un signal temporel ou les attaques sont mises en évidence sous forme de pics saillants.L’algorithme de base de ce type de détecteur est le suivant :

Détection d’enveloppe : traduit les propriétés énergétiques locales de ce dernier. La détection d’enveloppe permet d’obtenir cette information. En général obtenue à l’aide d’un filtrage passe-bas de l’énergie instantannée.
Dérivation de cette fonction enveloppe : on utilise un filtre RIF qui simule l’opérateur de dérivation. Les valeurs positives de de cette dérivée mettent en évidence les front montant d’énergie et constituent une bonne fonction de détection.

Ressources dont le module dépend

wikipédia : filterbank, spectrogram, filter, cours oasis (SI101) filtrage
bibliothèques JAVA à mettre en oeuvre : math common api
compléments : un tp de 2007 en signal, détecteur de mélodie (contient de la détection d’enveloppe et de la détection de hauteur notamment).
biblio et slides : sur cette page (intranet)

Exemples d’utilisation du module

dans des composants pact :
- dans la détection du rythme
- pour synchroniser musique et image
dans des systèmes existants :
- editeurs audio (beat tracking)
- détection d’activité

Résultats attendus

connaissances : filtrage RIF, passe-bas, passe-haut, dérivateur, méthode de Parks-mc Lellan (ou Remez)
compétence : savoir expliquer avec ses propres mots le principe de fonctionnement d’un détecteur d’attaque, savoir choisir les filtres (longueur, type), être capable de mettre un oeuvre un filtre numérique simple
PAN 2 : notice descriptive précise (choix de paramètres, justifications des choix, description mathématique, description informatique) contenant le pseudo-code à mettre en oeuvre, éventuellement implémenté en matlab/octave sour forme de fonction.
PAN3 :
- code java commenté et structuré de manière à être lisible.
- tests de la fonction d’attaque :
  - sur un signal avec des sons bien séparé de batterie
  - sur des signaux plus complexes
PAN 4 (éventuel) :
- pour des signaux plus complexes : rajouter un banc de filtre (module banc de filtre)
- calculer une fonction de détection dans chaque bande et fusionner l’ensemble (somme pondérée des fonctions dans chaque bande)
- tester les améliorations par rapport au modèle plus simple précédent sur des cas plus complexes que vous définirez vous même.

module: audio et langage, module: traitements

Module : synthèse à table d’onde

10/12/2013 Jean-Claude Dufourd

Titre du module : Synthèse à table d’onde

proposé par :

Geoffroy Peeters (geoffroy.peeters_at_telecom-paristech.fr)
Roland Badeau (roland.badeau_at_telecom-paristech.fr)

Descriptif

La synthèse sonore regroupe un ensemble de procédés numériques et d’algorithmes destinés à produire des sons. Ces sons peuvent être environnementaux, comme par exemple dans le cas des jeux vidéo (vent, bruits lors de contacts ou d’interaction avec des objets, bruits d’ambiance tels que les chants d’oiseaux…) ou musicaux. La synthèse à table d’onde consiste à enregistrer simplement les sons en mémoire morte pour les rejouer ensuite. En général on n’enregistre pas tous les sons possibles : il est nécessaire de reconstituer les sons par rééchantillonnage et interpolation à partir des notes dont on dispose. Souvent, le son est enregistré en plusieurs morceaux (attaque-sustain-release) par exemple et il est nécessaire de boucler dans la partie de maintien tant que la note est jouée.

Ressources dont le module dépend

Cours SI340, synthèse sonore, Curtis Roads « Audionumérique », M. Kahrs « Application of digital signal processing to audio and acoustics »
en anglais : wavetable synthesis.
bibliothèques JAVA à mettre en oeuvre : math common api

Exemples d’utilisation du module

dans des composants pact :
- synthèse sonore
dans des systèmes existants :
- la plupart des ordinateurs
- synthétiseurs dit « à échantillonnage »

Résultats attendus

connaissances : synthèse sonore, sous/sur échantillonnage, filtrage, interpolation fractionnaire
compétence : savoir expliquer les problèmes liés au rééchantillonnage d’un signal, savoir expliquer les problèmes liés au bouclage d’une forme d’onde, savoir mettre en oeuvre plusieurs types d’interpolation et comparer leur effets sur le spectre des sons produits.
PAN2 : notice descriptive précise (principe général et systèmes mis en oeuvre, choix et réglages des paramètres) contenant le pseudo-code à mettre en oeuvre, év. une implémentation de démo sous matlab ou octave. Définition de la base de sons préenregistrée.
PAN3 : code java commenté et structuré de manière à être lisible mettant en oeuvre une interpolation d’ordre 1 et év. bouclage (selon les sons choisis).
PAN4 : eventuel : code java et démonstration avec interpolation d’ordre supérieur (B-splines). comparaisons et tests d’écoute. Mise en oeuvres de traitements complémentaires (filtrages, reverb, modifications de timbre)

module: audio et langage, module: traitement de l'information

Module : Descripteurs audio "chromas"

10/12/2013 grichard

Module: Descripteurs audio « chromas »

proposé par :

Geoffroy Peeters (geoffroy.peeters_at_telecom-paristech.fr)
Roland Badeau (roland.badeau_at_telecom-paristech.fr)

Descriptif

La représentation en chromas permet de répartir l’intensité d’un son complexe, potentiellement polyphonique sur une échelle musicale tempérée ramené sur un octave. Les chromas peuvent être calculés sur un signal audio avec différentes résolutions (sixième de ton, demi-ton, ..). Ils peuvent aussi être calculés sur partition (la résolution est automatiquement en demi-tons) mais différentes précisions en nombres d’harmoniques (1, 3, ..) peuvent être utilisées. Par exemple, pour un do4 sur la partition, le chroma théorique correspondant pour une résolution d’une harmonique est le vecteur C=(1,0,0,0,0,0,0,0,0,0,0,0) où les composantes représentent les valeurs de chromas pour les différentes notes (C, C#, D, .., B) .

Ressources dont le module dépend

Bibliographie
- Article original sur la reconnaissance d’accords à l’aide de chromas
- Thèse de L. Oudre sur la reconnaissance d’accords à l’aide de chromas (pour approfondir)

Exemples d’utilisation du module

dans un système simple de reconnaissance des accords
dans un système simple d’alignement entre musique et partition

Résultats attendus

connaissances : Compréhension de la représentation en chromas, Compréhension de son utilisation en reconnaissance d’accords ou de tonalité
compétence : à l’issue de ce module vous aurez écrit en Java un programme qui calcule la représentation en chromas à partir d’un signal audio

PAN 1: description du module, et du rôle des chromas
PAN 2: étude biblio, pseudo-code, savoir expliquer avec ses propres mots le fonctionnement et le principe des chromas. Calcul de chromas théoriques à partir d’une représentation MIDI ou partition en utilisant une résolution à 1 ou 3 harmonique(s) (à l’aide de JAVA ou matlab/octave)
PAN 3: mise en œuvre sur des données audio. Représentation en chromagramme (par analogie au spectrogramme) pour un segment musical simple

Volume

4TH programmées pour un binôme

module: audio et langage, module: traitements

Module : Traitement Automatique du Langage

30/10/2013 clavel

Traitement Automatique du Langage (TAL)

proposé par :
Chloé Clavel (at telecom-paristech.fr, 7254)
complexité : moyenne

Descriptif

Le traitement automatique du Langage (TAL, en anglais NLP pour Natural Language Processing) est un domaine à la frontière entre l’informatique, et la linguistique. Il rassemble l’ensemble des développements visant à modéliser et reproduire, à l’aide de machines, la capacité humaine à produire et à comprendre des énoncés linguistiques dans des buts de communication (1). Il est utilisé dans de nombreuses applications (la recherche d’information, l’extraction d’information, la traduction automatique, la reconnaissance vocale, l’analyse d’opinions sur les réseaux sociaux, le classement de documents, l’interaction humain-machine, les correcteurs orthographiques, la synthèse de la parole etc.).Le TAL repose sur deux types de méthodes : les méthodes linguistiques et les méthodes statistiques. Le premier type de méthode consiste à décrire l’information à extraire pour un métier, un domaine spécifique ou une thématique en modélisant l’information sous forme de patrons/règles linguistiques. Le deuxième type de méthode inclut par exemple des méthodes de type classification supervisé ou non supervisé, permettant de regrouper des documents similaires en fonction de leur contenu linguistique. Les méthodes utilisées font appel au domaine de l’apprentissage statistique et de la reconnaissance des formes (lien avec l’UE SI221, et le module kppv) avec une représentation des données spécifiques aux données textuelles.

Ressources dont le module dépend

aucune dépendance a priori mais possibilité d’établir des liens avec le module kppv, le module 3D et Interface (Avatar et Agents Conversationnels), le module reconnaissance de la parole
UE de reconnaissance des formes (SI221), Traitement des signaux audio-fréquence (parole – traitements linguistiques UE SI340)

Exemples d’utilisation du module

la recherche d’information, l’extraction d’information, la traduction automatique, la reconnaissance vocale, l’analyse d’opinions sur les réseaux sociaux, le classement de documents, l’interaction humain-machine, les correcteurs orthographiques, synthèse de la parole

Objectifs d’apprentissage

Notion en apprentissage automatique et en représentation des données textuelles
Compétence à développer : à l’issue de ce module vous vous serez familiarisé avec les enjeux du TAL et vous aurez implémenté un système d’analyse de données textuelles

Résultats attendus

PAN1 :
- Savoir définir les termes suivants : TFIDF, analyse morpho-syntaxique, classification supervisée et non supervisée.
- Savoir expliquer en quoi le TAL est a priori intéressant dans le projet du groupe.

PAN2 :
- Livrable : Etude bibliographique sur le TAL
- Livrable : Pseudo code implémentant un système d’analyse de données textuelles
PAN3 :
- Livrable : code et premières mesures de performance
PAN4 : Livrable : rapport de performance, en situation d’usage.

module: audio et langage, module: traitements

Module : Synthèse de la parole

04/12/2012 grichard Laisser un commentaire

Module: Synthèse de la parole à partir du texte

proposé par :

Geoffroy Peeters (geoffroy.peeters_at_telecom-paristech.fr)
Roland Badeau (roland.badeau_at_telecom-paristech.fr)

Descriptif

La synthèse de la parole permet de vocaliser un texte. Ce module permet de réaliser un synthétiseur complet par concaténation d’éléments pré-enregistrés (e.g. les diphones) et permet ainsi de synthétiser n’importe quel mot. Pour la partie de « transcription graphème-phonème » (e.g. conversion du texte en suite de phonèmes), on utilisera un phonétiseur distribué librement (LIAPhon) qu’il s’agira de comprendre. Pour un système de synthèse à vocabulaire limité, on pourra se contenter de prophétiser manuellement les différents mots du vocabulaire.

Ressources dont le module dépend

Bibliographie
- Quelques liens rapides
- Eléments de synthèse de la Parole pour PACT
- Phonétiseur du LIA : LIAPhon (http://download.gna.org/lliaphon/)
- Une base de diphones sera (normalement) fournie

Exemples d’utilisation du module

dans un système où une information textuelle doit être vocalisée, ou dans le cadre d’une interface Homme-Machine

Résultats attendus

connaissances : Compréhension de l’algorithme de synthèse par concaténation de diphones, connaissances sur le traitement de la parole, Traitement du signal pour la concaténation de sons élémentaires
compétence : à l’issue de ce module vous aurez écrit en Java un programme qui synthétise un texte à vocabulaire ouvert. Vous aurez aussi interfacé votre programme avec un phonétiseur distribué librement.
livrable 1: Interfaçage avec le phonétiseur du LIA (LIAPhon) ou constitution d’un dictionnaire de mots phonétisés
livrable 2: pseudo-code du programme de synthèse par concaténation de diphones
livrable 3: code java + tests d’évaluation et d’intélligibilité sur des textes simples.

Volume

12 TH programmées pour un binôme (avec intégration du phonétiseur LIAPhon)
6 TH pour un système à vocabulaire limité (sans intégration du phonétiseur LIAPhon).

module: audio et langage, module: traitements

Module : Programmation dynamique pour la reconnaissance de parole par DTW

30/11/2012 grichard Laisser un commentaire

Module: Programmation dynamique pour la reconnaissance de parole par DTW

proposé par :

Geoffroy Peeters (geoffroy.peeters_at_telecom-paristech.fr)
Roland Badeau (roland.badeau_at_telecom-paristech.fr)

Descriptif

La programmation dynamique (ou Dynamic programmming) est une approche qui permet, sous certaines conditions, d’obtenir la solution optimale à un problème de minimisation d’un critère d’erreur sans devoir considérer toutes les solutions possibles. Pour la reconnaissance vocale, elle permettra de comparer deux séquences de vecteurs de paramètres (par exemples deux séquences de vecteurs MFCC) en autorisant une déformation temporelle dynamique des séquences. Le problème se ramène à calculer la meilleure distance D(Tx, Ty) entre deux séquences x et y, où x et y peuvent être déformées temporellement suivant des contraintes pré-déterminées.

Ressources dont le module dépend

Bibliographie
- Eléments de Reconnaissance de la Parole pour PACT

Exemples d’utilisation du module

dans un système simple de reconnaissance de la parole
dans un système d’alignement entre musique et partition

Résultats attendus

connaissances : Compréhension de l’algorithme de programmation dynamique, Compréhension de son utilisation en reconnaissance de la parole
compétence : à l’issue de ce module vous aurez écrit en Java un programme qui compare deux séquences de vecteurs (par ex. une séquence de vecteurs MFCC). Vous aurez au préalable testé votre algorithme sur des séquences simples de scalaires.
PAN 1: description du module, et du rôle de la DTW
PAN 2: étude biblio, pseudo-code, savoir expliquer avec ses propres mots le fonctionnement et le principe de la DTW. Démonstration sur un cas synthétique (à l’aide de JAVA ou matlab/octave)
PAN 3 mise en oeuvre sur des données réelles. Evaluation des performances sur une base de données simple ou démo live.

Volume

4TH programmées pour un binôme

module: audio et langage, module: traitements

Module : Reconnaissance vocale simple

28/11/2012 Jean-Claude Dufourd Laisser un commentaire

Titre du module : Reconnaissance vocale

proposé par :

Geoffroy Peeters (geoffroy.peeters_at_telecom-paristech.fr)
Mathieu Labeau (mathieu.labeau_at_telecom-paristech.fr)

Descriptif

Ce module permet de construire un système simple de reconnaissance de la parole d’une dizaine de mots. Il repose sur les modules « descripteurs audio MFCC » et « Programmation dynamique pour la reconnaissance de parole par DTW » qui seront réalisés au préalable.

Ressources dont le module dépend

Bibliographie
- Quelques liens rapides
- Eléments de Reconnaissance de la Parole pour PACT

Exemples d’utilisation du module

Pour faire une interface homme-machine naturelle de style « commande vocale ».

Résultats attendus

connaissances : Compréhension des modules « descripteurs audio MFCC » et « Programmation dynamique pour la reconnaissance de parole par DTW,
compétence : Savoir réaliser un système simple de reconnaissance voacle mono locuteur, savoir le rendre plus robuste aux variations de prononciations et aux différents locuteurs
livrable 1 : notice descriptive précise (choix de paramètres, justifications des choix, description mathématique, description informatique) contenant le pseudo-code à mettre en oeuvre
livrable 2 : code java commenté et structuré de manière à être lisible.
livrable 3 : tests du système de reconnaissance sur une base de 10 répétitions de 10 chiffres (base fournie); test du système de reconnaissance avec vocabulaire défini pour le projet

Volume

7 TH programmées pour un binôme

Signatures :

module: audio et langage, module: traitements

Module : Estimation de périodicité / hauteur

27/11/2012 Jean-Claude Dufourd Laisser un commentaire

Titre du module : Estimation de périodicité / hauteur

proposé par :

Geoffroy Peeters (geoffroy.peeters_at_telecom-paristech.fr)
Roland Badeau (roland.badeau_at_telecom-paristech.fr)

Descriptif

Dans la nature et dans un contexte musical, on rencontre de nombreux signaux périodiques ou quasi-périodiques. Les phonèmes voisés, les chants d’oiseaux ou encore les phénomènes saisonniers tels les émissions de CO2 sont des exemples de tels signaux.Dans des applications comme l’estimation du tempo, la transcription automatique de musique ou le codage de la parole, il est nécessaire d’estimer la période de ce type de signal ou son inverse, la fréquence fondamentale.Dans ce module, 2 possibilités sont proposées :

l’estimation de période à l’aide de l’autocovariance, qui s’appuie sur une analyse temporelle du signal,
une estimation de fréquence fondamentale qui utilise une représentation spectrale du signal par transformée de Fourier : la somme spectrale ou le produit spectral.

Ressources dont le module dépend

Cours SI340, détection de hauteur, cours OASIS signaux aléatoire (+vidéo aléa sur le site : oasis/groupe app/spoc)
bibliothèques JAVA à mettre en oeuvre : math common api

Exemples d’utilisation du module

dans des composants pact :
- détection de hauteur
- détection du rythme
dans des systèmes existants :
- logiciels d’analyse de la voix (ex : PRAAT)
- codeurs

Résultats attendus

connaissances : autocovariance, fréquence fondamentale, spectre de signaux quasi-périodiques, transformée de Fourier
compétence : savoir lire la fréquence fondamentale sur un spectre ou un spectrogramme de signal, savoir expliquer le principe de l’estimation par autocovariance ou par somme/produit spectral
PAN2 : Apprentissage des bases de traitement signal nécessaires. Pour une des méthodes (ex: autocovariance) notice descriptive précise (principe général et systèmes mis en oeuvre, choix et réglages des paramètres) contenant le pseudo-code à mettre en oeuvre. Définition et enregistrement d’un corpus de test.
PAN3 : Implémentation matlab/octave et test sur le corpus. Code java correspondant commenté et structuré de manière à être lisible. Test unitaire du code JAVA pour vérifier le fonctionnement par comparaison avec le code matlab validé. Mesure des performances sur données de test.
PAN4 : amélioration et/ou mise en place d’une autre méthode avec même protocole de test

Le site pédagogique de PACT