Groupe Audio Acoustique

Wiki du groupe de recherche en audio et acoustique du LIMSI

Outils pour utilisateurs

Outils du site


projets:voix_dir_auraliz

Rayonnement de la voix dynamic pour l'auralization

Ce travail de stage s'inscrit dans le projet ANR-ECHO [ECrire l'Histoire de l'Oral]. Une expérience de réalité virtuelle sonore est mise en place pour immerger un sujet dans des lieux historiques grâce à l'écoute.

Dans un soucis d'apporter toujours plus de réalisme à ces simulations acoustiques, nous souhaitons développer un modèle de source sonore dynamique. Le champ sonore qu'elle génère évolue ainsi en temps réel en fonction de ses mouvements et de son rayonnement.

Cette page présente l'ensemble des étapes aboutissant sur un processus d'auralisation dynamique. Ce projet prend appui sur les précédents travaux réalisés au sein du groupe de recherche «Audio & Acoustique» du LIMSI.

Simulation d'environnement virtuel

Recréer virtuellement l'environnement sonore d'un lieu requiert de connaitre sa réponse impulsionnelle. Elle correspond à son comportement mécanique face à une impulsion, comme un coup de pistolet ou l'éclatement d'un ballon.

Pouvant être mesurée in-situ ou simulée grâce à un logiciel d'acoustique géométrique, elle dépend :

  • de la configuration du couple émetteurs/récepteurs dans la salle
  • du la géométrie de la salle

Pour des salles à géométrie complexe, le temps de calcul de la simulation peut être très élevé. De plus, couvrir virtuellement l'intégralité de l'acoustique interne de la salle peut se révéler fastidieux.

Fig1. - Schéma simplifiée d'une réponse impulsionnelle

  • Fig. 1. Schéma simplifiée d'une réponse impulsionnelle

Le produit de convolution entre la réponse impulsionnelle et le signal anéchoïque à transmettre permet d'obtenir l'auralisation nécessaire pour l'écoute de salle.

Cette technique possède plusieurs limites pouvant porter atteinte au réalisme de l'écoute :

  • la simulation acoustique n'est valable que pour une seule réponse impulsionnelle
  • l'écoute est considérée statique, les sources ne sont pas en mouvement durant l'écoute
  • modifier le modèle d'acoustique géométrique nécessite de lancer de nouveaux calculs

Partant de ce constat, l'idée est de contourner ces limitations pour proposer des simulations acoustiques dynamiques évoluant en temps réel. La simulation d'acoustique géométrique ne doit ainsi pas être relancée à chaque modification apportée à la source.

Modélisation d'une source par décomposition spatiale

L'idée est de recomposer pendant la simulation l'orientation et le rayonnement de la source sonore à partir d'un modèle unique.

Ce modèle est constitué de plusieurs «lobes», définie par un même diagramme de directivité.

Fig2. - Directivité d'un lobe (plan horizontal)

  • Fig. 2. Directivité d'un lobe (plan horizontal)

Fig3. - Modèle composé de 20 lobes

  • Fig. 3. Modèle composé de 20 lobes

Chaque lobe est ensuite implémenté dans le modèle d'acoustique géométrique comme une source virtuelle caractérisée par la directivité de la Figure 2. Dans le cas de notre modèle composé de 20 lobes, nous obtiendrons donc 20 réponses impulsionnelles. Ces dernières sont convolués par le signal anéchoïque à transmettre, puis sommés pour obtenir l'auralisation finale.

Elle a l'avantage de prendre en compte le rayonnement dans toutes les directions de l'espace. C'est une technique analogue à l'auralisation dit «multi-canal».

Si nous appliquons maintenant une pondération sur chaque lobe, la quantité d'énergie acoustique émise n'est pas identique tout autour de la source. Lors de la sommation des signaux issus de la convolution, cette différence sera perceptible par l'auditeur.

Il est alors possible de recomposer tous types de directivité souhaitée. Ainsi, pour reproduire une source ayant un rayonnement omnidirectionnelle, une pondération unitée est appliquée à chaque lobe (analogue à la Figure 3). Les figures suivantes illustrent cette technique pour une directivité de type cardioïde sur des plans 2D et 3D.

Fig4. - Reconstruction d'une directivité cardioïde sur un plan horizontal

  • Fig. 4. Reconstruction d'une directivité cardioïde sur un plan horizontal (courbe bleue : lobes; courbe noire : référence; courbe rouge : reconstruction)

Fig5. - Reconstruction d'une directivité sur un plan 3D

  • Fig. 5. Reconstruction d'une directivité sur un plan 3D

Analyse du rayonnement de la voix

Nous souhaitons utiliser la modélisation précédente pour simuler de façon réaliste le rayonnement de la parole lors d'une auralisaton de salle.

Des précédents travaux du groupe de recherche ont permis de montrer que le rayonnement de la parole était dépendant de la fréquence et du phonème prononcé par le locuteur. Ce deuxième point est lié notamment à la forme de la bouche.

L'objectif est d'implémenter une source sonore dynamique dont le rayonnement évoluerait en fonction du phonème. La première étape de l'analyse consiste à récupérer des données de rayonnement de la voix exploitables. Des mesures ont été réalisées à l'université d'Aalto en 2007. Un dispositif comprenant 20 microphones répartis le long d'une forme dodécahédrique permettait d'enregistrer le rayonnement de phonèmes tout autour de la source placée en son centre.

Le rayonnement a ainsi pu être analysé en bande de tiers d'octave. L'ensemble des phonèmes enregistrés sont rattachés à la langue française. Le résultat consiste pour chaque phonème en une matrice de 20 niveaux RMS répartis dans l'espace pour 18 fréquences (allant de 100Hz à 5000Hz).

Sont illustrés ici les résultats issus des mesures pour trois phonèmes : [a], [o] et [n]. Leur dépendance fréquentielle est mise en avant à travers ces trois graphiques.

Fig6. - Comparaison du rayonnement des phonèmes Fig6. - Comparaison du rayonnement des phonèmes Fig6. - Comparaison du rayonnement des phonèmes

  • Fig6. - Comparaison du rayonnement des phonèmes [a] (courbe bleue), [o] (courbe rouge) et [n] (courbe cyan)

En basse fréquence, les différences entre phonèmes sont faibles et le rayonnement est semblable à celui d'une source omnidirectionnelle.

A mesure que l'on monte vers les hautes fréquences, les différences sont plus marquées. Dans l'ensemble, une dissymétrie est visible, dû en partie à la forme complexe de la bouche lors de l'élocution. La deuxième étape consiste à convertir ces résultats de mesures vers des données exploitables lors d'une auralisation dynamique.

Le choix d'une décomposition de la directivité en harmoniques sphériques du 3ème ordre est proposé. Les avantages sont multiples :

  • il est caractérisé par un nombre restreint de coefficients.
  • il peut être interpolé en tout point de la sphère où la mesure ne nous fournit pas de résultats.
  • le rayonnement est facilement exportable.

Cette décomposition nous permet de calculer les poids à appliquer sur notre modèle multi-lobe permettant de recomposer le rayonnement par phonème.

Les figures suivantes présentent, pour le phonème [a], la différence entre les résultats de mesures et la recomposition à partir du modèle multi-lobe le long d'un plan horizontal.

  • Fig. 7. Pour le phonème [a], comparaison entre les résultats de mesures (courbe rouge) et la recomposition à partir du modèle multi-lobe (courbe bleue)

La finalité de cette analyse consiste en une base de donnée exploitable pour notre expérience de réalité virtuelle.

La continuité de ce travail portera sur :

  • la mesure du rayonnement avec un plus grand nombre de microphones
  • l'évaluation du rayonnement sur un panel plus large
  • l'extension de la base de donnée pour tous les phonèmes existants

Validation par un test perceptif

L'une des motivations de la création de ce modèle multi-lobe étant son implémentation dans une auralisation de salle, il est naturel de chercher à le valider grâce à une expérience perceptive. L'ensemble des prérequis nécessaire à sa réalisation est présenté dans cette partie.

Salle modélisée

Dans le cadre du projet ECHO et de la thèse de Bart Postma, un modèle d'acoustique géométrique du Théâtre de l'Athénée a été élaboré.

Ce théâtre parisien d'une jauge de 570 places présente un temps de réverbération moyen de 1,5 secondes sur la plage fréquentielle entre 500 Hz et 1000 Hz.

A partir de mesures réalisées en son sein, il a été calibré pour que la simulation sonore soit écologiquement valable.

Les réponses impulsionnelles pour trois positions dans la fosse (au niveau de la scène, au milieu et au fond) ont été simulées au format Ambisonic du 2nd ordre (9 canaux) pour une écoute spatialisée immersive.

Fig8. - Modèle numérique du Théâtre de l'Athénée

  • Fig. 8. Modèle numérique du Théâtre de l'Athénée

Scène sonore

Dans le cadre du projet ECHO, un extrait de la pièce de théâtre "Ubu Roi" écrite par Alfred Jerry a été enregistré. Deux acteurs y jouent : un homme assis sur une chaise et une femme en mouvement autour de lui.

Le fichier sonore a été enregistré à l'aide d'un microphone placé près de la bouche de chaque acteur dans une salle de théâtre.

  • Audio 1. Extrait audio de "Ubu Roi"

L'hypothèse d'un champ direct plus important que le champ diffus est licite. Le fichier visuelle a été enregistré à l'aide d'une caméra Kinect. Elle permet notamment d'obtenir l'information selon les trois directions de l'espace. L'information sur la profondeur de la scène est alors accessible.

  • Vidéo 1. Extrait vidéo de "Ubu Roi"

Cette vidéo nous permet d'obtenir l'information sur l'orientation des acteurs tout au long de la scène.

Protocole

L'architecture logicielle permettant de réaliser une auralisation dynamique est présentée ci-dessous.

Fig. 9 Architecture logicielle

  • Fig. 9. Architecture logicielle

Compte tenu des performances de la machine effectuant les calculs numériques, un modèle de 12 lobes a été implémenté. Pour faciliter l'expérience, une HRTF obtenue sur une tête KEMAR est utilisée pour l'ensemble des sujets.

Trois types de sources sont simulées à travers ces simulations sonores :

  • une source statique et omnidirectionnelle
  • une source statique et présentant une directivité issue de la littérature
  • une source suivant les mouvements des acteurs et présentant une directivité issue de la littérature

Nous souhaitons dans un premier temps évaluer l'influence d'une source en rotation lors d'une auralisation. 9 auralisations sont évalués (trois positions pout trois types de sources simulées) selon quatre attributs :

  • «Plausibilité» : lié à l'aspect naturel de l'écoute
  • «Distance» : jugement de distance séparant le sujet et les acteurs
  • «Largeur de source» : impression du son provenant d'un zone plus ou moins large
  • «Enveloppement» : sentiment d'immersion dans la salle simulée

Un panel de 9 sujets, constitué de 5 femmes et 4 hommes, a été choisi pour réaliser l'expérience (moyenne d'âge : 32,9 ans – écart-type : 11,8 ans) Les résultats présentés sont la moyenne des évaluations pour l'ensemble des positions.

Fig. 10. - Résultats de l'expérience moyennés sur l'ensemble des positions

  • Fig. 10. - Résultats de l'expérience moyennés sur l'ensemble des positions

De cette évaluation, une analyse de variance (ou ANOVA) de niveau \alpha=0.05 est réalisée. Toute valeur inférieur à ce seuil indique qu'une différence sonore est perceptible entre deux auralisations. La source dynamique est perçue plus naturelle, plus large et plus enveloppante que les deux autres sources. La source omnidirectionnelle est perçue plus éloignée que les deux autres sources.

Ces premiers résultats concernant l'implémentation de sources dynamiques offrent une réelle motivation dans le développement d'auralisations toujours plus réalistes. Dans la continuité de ce projet, les prochaines réalisations porteront sur :

  • la continuité de cette expérience sur une panel plus large
  • l'implémentation et l'évaluation de notre analyse du rayonnement de la voix parlée par bande de tiers d'octave
  • la création de modèles multi-lobe ayant un nombre de lobes plus important

Concernant cette étude

Ce travail de recherche a été encadré par Brian F.G. Katz et Bart Postma, membre du groupe de recherche Audio & Acoustique du LIMSI. Pour plus de détails, veuillez consulter le rapport complet (lien disponible) Contact : hugo.demontis@etu.upmc.fr


projets/voix_dir_auraliz.txt · Dernière modification: 2016/08/17 10:32 par Brian Katz