COmpression et REprésentation des Signaux Audiovisuels>

FR EN

Conférences plénières

Marie Tahon est actuellement professeure à l’Université du Mans et conduit ses recherches au LIUM. Elle a obtenu son diplôme d’ingénieur de l’Ecole Centrale de Lyon ainsi qu’un Master en acoustique de l’Ecole Centrale & INSA de Lyon, en 2007. Elle a reçu le diplôme de docteur en informatique pour sa thèse soutenue à l’Université Paris-Sud en 2012. Elle a travaillé avec le LIMSI-CNRS (Orsay) sur le thème la reconnaissance automatique des émotions dans la parole (doctorat et post-doctorat), avec le LMSSC / CNAM (Paris) en acoustique (ATER), puis à l’IRISA (Lannion) avec l’équipe « Expression » (post-doctorat).

Ses thématiques de recherche s’articulent autour du traitement automatique de la parole expressive, principalement dans les domaines de la synthèse de parole, de la reconnaissance d’émotion et l’identification du locuteur. Elle a aussi mené des travaux en acoustique musicale, pour l’analyse automatique de chants traditionnels et l’acoustique instrumentale / organologie.

Titre: Traitement automatique de la parole spontanée: application aux données médiatiques et aux conversations téléphoniques.

Résumé: La parole spontanée est celle que nous utilisons pour communiquer au quotidien. Le contenu linguistique, ainsi que la manière de s'exprimer (prosodie) va être modulée suivant le contexte de l'interaction. Ces modulations interviennent à des niveaux très différents de la parole. D'abord, la prise de parole doit se faire à des instants qui sont pertinents dans la conversation, on peut également interrompre le discours de l'autre. Ensuite, la production de la parole peut être affectée par un état émotionnel et engendrer des disfluences, des variations phonétiques ou prosodiques. Une problématique importante est de caractériser cette parole spontanée en utilisant des modèles de traitement automatique basés données.

Cette présentation abordera le traitement automatique de la parole spontanée dans deux cas application: le traitement de la parole médiatique, et en particulier des interruptions; l'estimation du degré de frustration dans des appels téléphoniques issus de centres d'appels. Ces deux cadres applicatifs forment un contexte pour présenter une méthodologie de collecte et d'annotation de données subjectives pour l'apprentissage de réseaux de neurones. Dans le cas de la parole médiatique, ces modèles serviront à identifier dans un signal de parole quand il y a une interruption. Dans le cas de la parole téléphonique, des modèles optimisés pour prédire le degré de satisfaction seront discutés.

Ghassan AlRegib est actuellement professeur titulaire de la chaire John et Marilu McCarty au Georgia Institute of Technology. Au sein du laboratoire Omni pour l’ingénierie et la science visuelle intelligentes (OLIVES), lui et son équipe travaillent sur des algorithmes d’apprentissage automatique robustes et interprétables, sur l’incertitude et la confiance, sur l’apprentissage multimodal ainsi que sur les algorithmes intégrant l’humain dans la boucle.

Le groupe a démontré ses travaux dans un large éventail d’applications telles que les systèmes autonomes, l’imagerie médicale et l’imagerie du sous-sol. Il s’intéresse à faire progresser les fondements de ces approches ainsi qu’à leur déploiement dans des contextes réels.

Le professeur AlRegib a obtenu plusieurs brevets américains et déclarations d’invention. Il est membre (Fellow) de l’IEEE. Il a reçu plusieurs prix du meilleur article et distinctions ; la plus récente est le prix « Outstanding Teacher (Midcareer and Senior) » du College of Engineering au printemps 2025. Il est le Distinguished Lecturer 2026 de l’IEEE Signal Processing Society.

Le professeur AlRegib a siégé aux comités éditoriaux de plusieurs revues et a été président du comité technique (TPC Chair) pour ICIP 2020, ICIP 2024 et GlobalSIP 2014. Il a également été rédacteur de section (area editor) pour IEEE Signal Processing Magazine.

Vie privée | Accessibilité