Extraction et traitement de caractéristiques multimodales pour prédire la qualité d’une prise de parole en public

Occurrences : 

2021

Nombre d'étudiants minimum: 

4

Nombre d'étudiants maximum: 

8

Nombre d'instances : 

1

Faisable à distance: 

Oui

Description du projet :

Dans le cadre d’un projet sur la caractérisation automatique de la prise de parole en public, nous collectons un corpus de vidéos d’orateurs qui présentent un sujet devant un public. Notre objectif est d’extraire automatiquement un ensemble de descripteurs verbaux et non-verbaux pour ensuite analyser leur corrélation avec des jugements sur la qualité de la présentation.

Ce projet PAF a comme but de :

  • segmenter les vidéos selon les différents plans. Cela facilitera ensuite l’extraction de features visuelles comme les expressions faciales ou les mouvements du corps.
  • extraire des features multimodales (acoustiques, linguistiques, visuelles) à partir des vidéos et des sous-titres.
  • développer une première méthode de prédiction de la qualité de présentation de l’orateur.

Les étudiants pourront former de sous-groupes pour travailler sur certaines parties du projet, et ensuite réunir leurs résultats dans démo finale.