La sépararation de sources audio

Contact: Karim Abed-Meraim (karim.abed@telecom-paristech.fr) et Cédric Févotte (cedric.fevotte@telecom-paristech.fr)

Descriptif: Plusieurs sources peuvent être enregistrées et mélangées simultanément sur un réseau de microphones. Il s’agit pour l’utilisateur de faire le traitement adéquat pour séparer les différentes sources audio à partir de leurs mélanges.

Différentes solutions existent se basant sur certaines propriétés des signaux audio:

Analyse en composantes indépendantes (ACI): Les signaux sources sont à l’origine des signaux (aléatoires) statistiquement indépendants. Le mélange donne des composantes statistiquement dépendantes et une manière de séparer les sources par ACI consiste à restaurer leur indépendances initiales.
Séparation par parcimonie des signaux: Une propriété intéressante des signaux audio est leur parcimonie dans le domaine temps-fréquence. La parcimonie des signaux mélangés est fortement réduite et une méthode de séparation de source audio consiste justement à maximiser la parcimonie des signaux obtenus après traitement.
Séparation par factorisation de matrices positives: Une dernière approche de séparation de source consiste à décomposer le gain spectral (dans le domaine temps-fréquence) du mélange en produit de matrices positives: celle dite des atomes et puis celle d’activation. Chaque colonne (resp. ligne) de la matrice des atomes (resp. la matrice d’activation) représente l’une des sources présentes.

Le composant dans le projet PACT: Dans le cadre de PACT, les méthodes les plus abordables pour des élèves de première année sont les suivantes:

ACI par décorrélation au second ordre: Transformée de Fourier à Court terme (TFCT), matrice d’autocovariance, diagonalisation et décomposition propre de matrices.
Maximisation de la parcimonie par la norme l_p: TFCT, méthode d’optimisation (gradient, gradient naturel)
Méthode NMF: TFCT, optimisation sous contrainte, méthode des moindres carrés

Bibliographie et sites web:

« Handbook of Blind Source Separation : Independent Component Analysis and Applications », par Pierre Comon et Christian Jutten (Editors), ELSEVIER, 2010
« Blind speech separation », par Makino, Shoji; Lee, Te-Won; Sawada, Hiroshi (Eds.), SPRINGER, 2007
http://perso.telecom-paristech.fr/~cardoso/stuff.html
http://perso.telecom-paristech.fr/~fevotte/

PACT

La sépararation de sources audio

Laisser un commentaire

Le site pédagogique de PACT