Module : Traitement Automatique du Langage

Traitement Automatique du Langage (TAL)
proposé par :
Chloé Clavel (at telecom-paristech.fr, 7254)
complexité : moyenne

 

Descriptif
Le traitement automatique du Langage (TAL, en anglais NLP pour Natural Language Processing) est un domaine à la frontière entre l’informatique, et la linguistique. Il rassemble l’ensemble des développements visant à modéliser et reproduire, à l’aide de machines, la capacité humaine à produire et à comprendre des énoncés linguistiques dans des buts de communication (1).  Il est utilisé dans de nombreuses applications (la recherche d’information, l’extraction d’information, la traduction automatique, la reconnaissance vocale, l’analyse d’opinions sur les réseaux sociaux, le classement de documents, l’interaction humain-machine, les correcteurs orthographiques, la synthèse de la parole etc.).Le TAL repose sur deux types de méthodes : les méthodes linguistiques et les méthodes statistiques. Le premier type de méthode consiste à décrire l’information à extraire pour un métier, un domaine spécifique ou une thématique en modélisant l’information sous forme de patrons/règles linguistiques. Le deuxième type de méthode inclut par exemple des méthodes de type classification supervisé ou non supervisé, permettant de regrouper des documents similaires en fonction de leur contenu linguistique. Les méthodes utilisées font appel au domaine de l’apprentissage statistique et de la reconnaissance des formes (lien avec l’UE SI221, et le module kppv) avec une représentation des données spécifiques aux données textuelles.

 

Ressources dont le module dépend
  • aucune dépendance a priori mais possibilité d’établir des liens avec le module kppv, le module 3D et Interface (Avatar et Agents Conversationnels), le module reconnaissance de la parole
  • UE de reconnaissance des formes (SI221), Traitement des signaux audio-fréquence (parole – traitements linguistiques UE SI340)

 

 

Exemples d’utilisation du module
  • la recherche d’information, l’extraction d’information, la traduction automatique, la reconnaissance vocale, l’analyse d’opinions sur les réseaux sociaux, le classement de documents, l’interaction humain-machine, les correcteurs orthographiques, synthèse de la parole

 

 Objectifs d’apprentissage
  • Notion en apprentissage automatique et en représentation des données textuelles
  • Compétence à développer : à l’issue de ce module vous vous serez familiarisé avec les enjeux du TAL et vous aurez implémenté un système d’analyse de données textuelles

 

 Résultats attendus
  • PAN1 :
    • Savoir définir les termes suivants : TFIDF, analyse morpho-syntaxique, classification supervisée et non supervisée.
    • Savoir expliquer en quoi le TAL est a priori intéressant dans le projet du groupe.
  • PAN2 :
    • Livrable : Etude bibliographique sur le TAL
    • Livrable : Pseudo code implémentant un système d’analyse de données textuelles
  • PAN3 :
    • Livrable : code et premières mesures de performance 
  • PAN4 : Livrable : rapport de performance, en situation d’usage.