Apprendre les langues aux machines (6) - Benoît Sagot (2023-2024)

Enseignement 2023-2024 : Apprendre les langues aux machines
Séminaire du 22 décembre 2023 : Apprendre un modèle de langue à partir de l’audio

Intervenant : Emmanuel Dupoux, directeur d’études EHESS, chercheur META

La modalité orale est le canal le plus naturel pour les interactions linguistiques, mais les technologies langagières actuelles (TAL) se basent surtout sur l’écrit, nécessitant de grandes quantités de textes pour développer des modèles de langage. Même les assistants vocaux ou les systèmes de traduction de la parole utilisent le texte comme intermédiaire, ce qui est inefficace et limite la technologie aux langues dotées de ressources textuelles importantes. De plus, cela néglige les caractéristiques de la parole telles que le rythme et l’intonation. Pourtant, l’enfant arrive à apprendre sa ou ses langue(s) maternelle(s) bien avant d’apprendre à lire ou à écrire.

Dans cette présentation, nous aborderons les avancées récentes en apprentissage de représentations audio qui ouvrent la voie à des applications TAL directement à partir de la parole sans aucun texte. Ces modèles peuvent capturer les nuances de la langue orale, y compris dans les dialogues. Nous discuterons également des défis techniques qui restent à relever pour reproduire un apprentissage qui approcherait celui du bébé humain.

Retrouvez les enregistrements audios et vidéos du cycle :
https://www.college-de-france.fr/fr/agenda/seminaire/apprendre-les-langues-aux-machines

Chaire Informatique et sciences numériques
Professeur : Benoît Sagot

Retrouvez tous ses enseignements :
https://www.college-de-france.fr/fr/chaire/benoit-sagot-informatique-et-sciences-numeriques-chaire-annuelle

Le Collège de France est une institution de recherche fondamentale dans tous les domaines de la connaissance et un lieu de diffusion du « savoir en train de se faire » ouvert à tous.
Les cours, séminaires, colloques sont enregistrés puis mis à disposition du public sur le site internet du Collège de France.

Découvrez toutes les ressources du Collège de France :
https://www.college-de-france.fr

Suivez-nous sur :
Facebook : https://www.facebook.com/College.de.France
Instagram : https://www.instagram.com/collegedefrance
X (ex-Twitter) : https://twitter.com/cdf1530
LinkedIn : https://fr.linkedin.com/company/collègedefrance

[Musique] [Musique] donc on va tenter aujourd’hui quelque chose de nouveau c’est une présentation où il y aura non seulement de l’image mais aussi du son donc l’idée c’est qu’après avoir présenté rapidement ce qui était qu’un modèle de langue pour le texte puisque c’est l’objet de mon cours j’ai pensé

Qu’il pouvait être intéressant de de vous présenter des que vous soit présenté des travaux en cours sur des modèles de langue qui plutôt que de traiter des données textuelles trait des données audio et la meilleure personne pour faire un tel séminaire c’était Emmanuel dupou que nous avons la chance donc d’avoir

Aujourd’hui Emmanuel est professeur à l’École des hautes études en sciences sociales il travaille au sein du laboratoire de sciences cognitives et psycholinguistique à l’École Nationale à l’École normale supérieure pardon il est par ailleurs chercheur chez méta et puis par ailleurs c’est un collègue avec lequel j’ai la chance d’avoir entraîné

Une thèse soutenue une thèse qui va bientôt être soutenue et donc peut-être que certains des travaux qu’il présentera sont finalement des travaux qu’on a fait ensemble mais je vais découvrir cette présentation en même temps que vous Emmanuel tu merci beaucoup le le son fonctionne bon

On va voir comment ça se passe par dans la suite voilà donc je suis très très heureux très honoré d’avoir été invité à parler dans cette prestigieuse institution et je vais commencer par vous demander de m’excuser si ma présentation ou bien qu’elle soit en français va comporter un support visuel

Et des exemples audio qui seront en anglais bon alors aujourd’hui je vais vous parler du tal sans texte alors c’est quoi le tal sans texte alors le point de départ c’est le traitement automatique des langues he le tal et qui comme Benoît vous l’a expliqué depuis le début de ce cours est

Fondé essentiellement sur l’analyse des corpus de texte alors en fait même le traitement euh là aujourd’hui on a vu les modèles de langue qui qui mouline sur sur des gros corpus de texte mais même les les systèmes automatiques de traitement de la parole sont aussi basés sur le texte

C’est qu’ils vont supposer que on part de l’audio on applique la reconnaissance automatique de la parole on arrive à du texte et puis vis ver ça une fois qu’on a fait mouliner un peu son modèle de langue on revient vers l’audio en faisant de la synthèse de parole mais

Dans les deux cas c’est le texte qui sert de pivot en fait qui sert de d’éléments de représentation de la langue alors le problème c’est que comme vous savez l’écriture c’est un artefact culturel qui est relativement récent dans l’histoire de l’humanité et qui n’est pas aussi répandu que cela à

L’échelle de la planète plus de la moitié des langues du monde n’ont pas une orthographe véritablement stabilis ou utilisé ou non que très peu de ressources textuelles qui puissent être exploité par le traitement automatique du langage bien que ces langues soient parfois utilisées par des millions de personnes ces langues sont du coup

Inaccessibles au au tal traditionnel et pourtant les jeunes enfants n’ont pas besoin de texte pour apprendre à parler ils arrivent à apprendre leur langue directement à partir du signal audio et à interagir avec leur environnement linguistique dans cette modalité orale bien avant d’apprendre à lire ou à écrire alors comment font-ils pourrions-nous

Reproduire une telle performance avec un système automatique le tal son texte euh c’est justement le projet de construire un système automatique qui apprendrait des représentations linguistiques directement à partir de l’audio sans aucun texte alors il y a une deuxième motivation euh à faire du tal sans texte

Même dans une langues comme le français ou l’anglais qui ont pourtant de très grandes ressources textuelles en effet en dépit de de la prolifération des technologies de l’écrit commencé par l’imprimerie les livres les ordinateurs et cetera l’oral reste euh pour toutes et tous la modalité linguistique la plus

Naturelle la raison on est peut-être que l’écrit avant a été surtout conçu pour représenter et stocker des connaissances en revanche l’écrit n’est pas très bon pour représenter les subtilités du langage parlé qui transmet non seulement un contenu sémantique ou conceptuel mais toute une palette de nuances émotionnelles et expressives la

Tonation l’emphase les expressions non verbales comme les rires les baillements les petits voilà les petits expressions de ce type là les mots remplisseurs comme h et les petites différences subtiles de temporalité dans un dialogue tous ces éléments sont d’une très grande utilité pour comprendre l’état d’esprit de l’interlocuteur dans la vie de tous

Les jours d’ailleurs pour cette raisonlà également les les gens qui utilisent le texte maintenant sur les smartphones vont rajouter tout un tas de de compléments au texte comme les les les mojis ou toutes sortes de d’expressions pour enrichir ce texte qui finalement est une représentation relativement pauvre du

Langage alors là je vais vous donner un exemple en anglais hein donc de deux humains être humain qui parlent au téléphone euh donc là c’est c’est tiré de la base de données Fisher conversation téléphonique entre deux personnes qui ne se connaissent pas ah ok donc donc c’est effectivement de

Personnes qui se connaissent pas et on entend on entend au fait c’est on est tout au tout début de la conversation ils font beaucoup d’effort pour se coordonner leur tour de parole en évitant les chevauchements il y a certains chevauchements qui se produisent il y a des silence

Embarrassant qui se produit mais au au bout d’un moment les les les deux acteurs les deux personnes arrivent à ce à synchroniser leur leur dialogue en utilisant des mots comme un allez-y et cetera donc ça c’est vraiment typique de la de la parole naturelle et euh alors donc c’est si on voulait

Réaliser ça de façon automatique avec des systèmes traditionnels on aurait de grandes difficultés là vous avez ici ce qui se produirait si on prenait les outils standards on va dire du traitement automatique du langage euh vous feriez de la reconnaissance euh audio donc vous prenez ces enregistrements de dialogue

Euh vous leur vouz faire passer à la moulinette de la reconnaissance automatique de la parole ça vous donne un texte vous entraînez un modèle de langue sur le résultat euh en distinguant qui parle de façon à pouvoir euh reproduire un dialogue naturel en mettant un petit un petit euh euh une

Petite balise pour dire ça c’est le locuteur 1 ça c’est le locuteur 2 donc on va pouvoir reproduire le tour de parole successif et ensuite vous entraîz un système de synthèse à à prendre ce texte reproduit et à reproduire à donner de de l’audio voilà

Donc là c’est ce qu’on a fait donc on a pris ce type de dialogue que vous venez d’entendre on les a passé à la mouinette de cette de cette solution en cascade en utilisant les outils traditionnels et voilà en gros ce que ça donne comme résultat our do you think about

AAS actually I do it very regularly ianetty ok donc là vous voyez que donc là on a utilisé les techniques que beno a présenté tout à l’heure de langue a effectivement tourné il a il a utilisé euh le résultat de la reconnaissance automatique de la parole et euh et est

Capable de reproduire un dialogue qui dont le contenu est relativement convainquant deux personnes qui sont en train de dialoguer ce que vous remarquez c’est que le système de reconnaissance automatique de la parole a traduit des choses comme enfin des des expressions non verbales comme h Des choses comme ça

En h Ham euh qui vous donne quelque chose d’un tout petit peu artificiel également le les les transitions entre les tour de paroes sont très très standardisé il y a pas du tout de de de chevauchement ou d’interruption comme on a eu tout à l’heure alors euh oups je reviens à la suite

Ici alors donc dans le le le tal sans texte l’idée c’est de euh de se débarrasser du texte complètement et d’essayer de de de construire un système qui va reproduire le type de dialogue que je vous ai montré au début directement à partir de l’audio alors je

Vous donne tout de suite le résultat de tout ça puis après je vous expliquerai comment est-ce qu’on a fait pour obtenir ce ce résultat voilà donc le dernier modèle qui a été réalisé àa par un des étudiants conjoints avec Benoît sago et voilà le résultat bon je va arrêter parce que ça continue

Pendant des heures mais donc là ce que vous pouvez peutêtre marqué enfin si vous connaissez sument bien l’anglais c’est que ça veut vraiment rien dire du tout mais par contre c’est assez convainquant comme un un dialogue naturel entre deux personnes on a on a du du tour de parole on a du

Chevauchement on a des un hum on a du rire voilà tout donc si on écoute avec une attention flottante on va ça va complètement passer comme un dialogue normal entre deux êtres deux êtres humains voilà donc ce que je vais faire dans la suite de ce de cette

Présentation c’est de vous expliquer un tout petit peu comment les détails techniques de comment est-ce que nous avons fait pour obtenir ce résultat là quelle est la différence avec les système traditionnel et quells sont les les les difficultés auxquelles on s’est on s’est confronté pour pour pour ça voilà donc

On va passer au comment alors voilà la description du modèle textuel dont j’ai parlé auparavant hein donc le modèle que j’ai appelé en cascade composé de trois éléments vous avez la le le composant reconnaissance automatique de la part parole ce qui va prendre en entrée c’est

C’est le l’audio le signal audio il va convertir ce signal audio en texte ensuite vous avez un modèle de langue donc le modèle de langue prend en entrée du texte et va continuer donc là on n’est pas dans les on peut on est soit dans les systèmes de dialogue soit

Des systèmes traditionnel de modèle langueù vous donnez ce qu’on appelle imprompt je sais pas comment on dit prompt en imprompt une amorce vous donnez une amorce et le système va continuer va compléter la la suite de cette amorce en mode texte et ensuite vous vous avez un système de synthèse de

La parole qui vous restitue la parole voilà ça c’est le système standard alors l’idée du la version sans texte c’est qu’on va éliminer cette representation intermédiaire texte mais on va quand même garder quelque chose qui est une représentation latente donc une représentation latente c’est une représentation qui est apprise par la

Machine c’est plus les humains qui vont donner au système ça doit être du texte et voit le texte que ça doit être et cetera donc on fixe on fixe cette représentation là cette reprentation maintenant émerge euh au cours de l’apprentissage et mais ça reste une représentation qui est discrète donc là

Vous pouvez voir ça comme une espèce de symbole dans un alphabet alien un alphabet imaginaire que le système a trouvé et euh de cette façon-là il va pouvoir de exactement la même façon transcrire la parole dans cette reprentation discrète euh utilise exactement les mêmes techniques d’apprentissage pour les modèles de

Langue donc vous pouvez lu apprendre à compléter la suite et ensuite vous pouvez partir de ce de ce pseudotexte centation symbolique latente et revenir à l’audio alors l’avantage de faire ça plutôt que le texte c’est que on peut imaginer que comme ces représentations là sont apprises à partir de l’audio et

Bien justement les éléments non verbaux comme les rires vont vont recevoir une représentation au niveau de ces unités discrètes et seront du coup apprise par le langage model au lie d’être éliminé comme on faisait traditionnellement en faisant les transcriptions et en enlevant tout ce qu’on pouvait pas trans

Inscrire tout ce qui relevait disons de de cette de cette oralité de ces spécificités de l’or du mode oral donc là tout les caractéristiques de l’oral vont pouvoir être représenté et donc apprises par le modèle de langue et donc restitué ensuite alors donc tout ça c’est ça

Semble une très bonne idée alors il y a quand même des difficultés hein c’est pas aussi simple qu’ n paraît euh une des grosses difficultés c’est que cette représentation latente est impossible à apprendre dans un système qui travaillerait de bout en bout hein dans un dans un modèle de langue traditionnel

Vous avez vous avez juste du texte à l’entrée du texte à la sortie et vous posez pas de question ici si on commence par l’audio et on essaie de de d’apprendre au système à ressortir de l’audio et de se débrouiller au milieu en fait ça va pas marcher du tout en

Tout cas personne n’a réussi jusqu’à présent à à faire tourner un un modèle de ce typel euh on sait pas trop pourquoi d’ailleurs mais le système dégénère ça ça ça prend pas des des reprentations intermédiaires intéressantes ce qu’on sait faire en revanche et c’est ça que qui qui a été

Fait par par mon équipe et collaborateur depuis depuis plusieurs années c’est de procéder par morceau c’est-à-dire de se focaliser sur un aspect du problème et d’apprendre la représentation l’attente qui permet de le résoudre alors je vais vous expliquer plus en détail comment est-ce que comment est-ce que ça marche

Le deuxième problème évidemment qui est outre qu’on peut pas apprendre de bout en bout hein avec une approche où on ferait on ferait descendre des gradients depuis depuis la sortie jusqu’à l’entrée euh le second problème c’est que contrairement à ce qui se passe quand on a du texte ça devient plus difficile de

Savoir si le modèle est bon ou pas Bonou de diagnostiquer ces ces problèmes parce qu’en fait on n’ pas la moindre idée de ce que ce que représente ces représentations latente au milieu on sait pas ce que c’est et donc du coup on peut pas calculer ce qu’on appelle ce

Qu’on utilise traditionnellement en reconnaissance de la parole qui est le le le word error rate ou le caractère erate on peut pas les calculer puisqueici il s’agit pas de mots ni de caractère alors pour répondre à ces deux questions euh nous avons travaillé depuis plusieurs années à définir d’une

Part une série de tâches d’apprentissage annexe qui permettent d’apprendre des morceau du système sans apprendre l’intégralité du système et ensuite àer recoller donc ça c’est des tâches annexes et ensuite associé à ces tâches annexes des évaluations des métriques d’évaluation pour savoir à quel point ces tâches sont bien réalisées alors le

Le la première le premier composant c’est l’encodeur he l’encodeur part du de la parole et euh construire une représentation latente appropriée et donc là la difficulté c’est de définir qu’est-ce que c’est une représentation appropriée et ça je vais vous expliquer un petit peu comment ça fonctionne on peut définir des critères linguistiques sur

Le la la qualité des représentation la nature de représentation qui sont apprise par l’encodeur on peut imaginer des tâches la tâche ici numéro 3 c’est une tâche de reconstruction où on part de de l’entrée audio et on reconstruit l’ordre audio en passant par une reprentation discrète euh et puis euh on

A également les tâches qui ont à voir avec le le le modèle de langue lui-même qui eux-même peuvent être évalués avec des des des objectifs et des métriques alors euh bon au fil des années on a organisé plusieurs compétitions internationales pour pour pour disons travailler sur chacun de

Chacun de ces tâches chacune de ces de ces problèmes alors je vais pas du tout avoir le temps de vous présenter toutes tout tout ça de en détail hein je vais me concentrer sur chacune des tâches l’une après l’autre et vous présenter certains des résultats principaux qui

Ont été obtenu par la communauté alors on va commencer par l’encodeur alors l’objectif de l’encodeur c’est de convertir comme je l’ai dit tout à l’heure la forme d’onde audio en une représentation que on va considérer comme une séquence de vecteur à valeur continue on peut voir ça en

Gros comme un spectrogramme hein vous avez ici le temps et ici vous avez un certain nombre de dimensions euh qui vont représenter qui seront trouvés par la machine il s’agit plus maintenant d’avoir de fixer la représentation on veut que la machine trouve la représentation alors ce qu’on veut en

Revanche fixer comme comme critère de succès de cette de cette repration c’est que vous voudrait qu’elle puisse encoder correctement les informations linguistiques et ignorer les informations nonlinguistiques donc les informations linguistiques c’est les distinctions par exemple entre les mots euh si vous avez lapin latin sapin tout ça ce sont des mots différents on

Voudrait qu’ils soi représentés différemment en revanche les repentation qui nous intéresse pas c’est la voix du locuteur c’est euh ce qui parle vite ou pas vite on voudrait que ça en gros sauf si c’est pertinent pour la pour le sens de la phrase on voudrait éliminer un certain nombre de variations d’autres

Variations qu’on voudrait éliminer c’est est-ce qu’il y a un bruit de fond autour de lui est-ce que il y a est-ce que il parle proche du micro ou loin du micro toutes ces variationsl qui sont des tion acoustique on voudrait qu’elle soit éliminée de cette représentation donc on veut une représentation qui soit

Relativement abstraite qui code relativement bien les contrastes linguistiques qui sont essentiels pour la compréhension alors la la façon dont on a on a défini une métrique d’évaluation c’est qu’on s’est on s’est inspiré de ce qui se fait chez le bébé pour savoir si le bébé a a appris des repromentations

Linguistiques et la façon dont on pose la question au bébé là je parle de d’enfants qui sont pas forcément capable de parler encore on va leur leur leur proposer des tâches de discrimination on va leur jouer par exemple la syllabe bas bas b b b pendant un certain temps le

Bébé va commencer à s’endormir un petit peu et puis à ce moment-là on va changer on va faire pas pas pas pas et là le bébé va réagir ah il y a un changement quelque chose de qui a changé ce qu’on a remarqué c’est que le bébé ne réagit pas

Très pas énormément si on fait des changements de locuteur mais par contre il va il va réagir si on fait des changements euh des changements de phonem des changements linguistiques et donc on fait le même genre de tâche ici on va présenter alors on va pas faire le

L’histoire de l’habituation et et de l’endormissement du bébé on va pas modéliser ça dans la machine on va on va on va être plus direct on va présenter à la machine trois trois syllabes on a ici bit B et puis bit dit par une autre personne et ce qu’on espère c’est que la

Représentation qui est calculée par la machine euh sera beaucoup plus proche si on prend deux syllabes qui ont la même représentation linguistique bit et B même si on a un changement de locuteur par rapport à la différence entre bit et bê qui correspond à un petit changement de

Voyelle donc c’est ça qu’on voudrait on voudrait la façon on calcule ça c’est qu’on calcule la distance entre ces représentations et on voudrait donc la distance entre A et X entre bit et bit soit plus plus petite que la différence entre bit et B voilà on calcule ça et

Donc on donne un score de succès à la machine donc ça nous permet de savoir si la machine a a calculé une représentation qui qui soit linguistiquement riche et qui élimine les informations dont on ne veut pas entendre parler à ce niveau du modèle alors maintenant on a défini la

Métrique mais alors comment est-ce qu’on fait pour apprendre une représentation qui qui soit bonne à cette métrique là évidemment on peut pas utiliser la métrique parce que sinon si on util la métrique ça veut dire qu’on utiliserait en fait le texte on veut pas utiliser le texte on veut un système qui va

Apprendre dans n’importe quelle langue y compris une langue dans lequelle on a aucune transcription alors là on va les les les chercheurs se sont orientés vers des idées qui sont assez intéressantes qui sont issu du théorie de l’information qui est de regarder finalement qu’est-ce que le texte réalise comme opération par

Rapport au signal audio si vous prenez un signal audio vous pouvez le numériser le mettre sur votre ordinateur vous allez obtenir une certaine taille de fichier qui correspond en fait à la à la à l’information qui est présente dans le signal audio tel que on va pouvoir le

Reconstruire sans sans perte donc en gros si vous vous commencez de de l’audio vous pouvez extraire un spectrogramme en gros vous pouvez comprimer ça et arriver à une représentation relativement correcte avec en gros 20 20000 bits par seconde en gros voilà on peut comprimer un petit

Peu plus dans les dans les téléphones on peut arriver à 8 8 KB par seconde mais ça vous donne un peu l’ordre de grandeur maintenant si vous prenez le contenu de ce qui a été dit au téléphone et vous le transcrivez en texte vous avez une une réduction de l’information qui est d’un

Facteur 200 donc vous avez comprimé votre fichier d’un facteur 200 vous avez enlevé énormément d’information alors comme j’ai dit tout à l’heure le texte il enlève peut-être trop d’information puisquil va enlever l’expressivité l’intonation et toutes ces chosesl vous VZ les garder mais ça vous donne quand

Même une petite idée que entre les deux entre le l’information audio brut et le texte on a donc une marge de manœuvre et on peut donc imaginer construire des systèmes qui vont essayer de de de représenter le signal en en opérant une une compression de de de la représentation voilà alors les premiers

Premiers systèmes qui ont été proposés pour résoudre ce problème ont utilisé l’idée de finalement représenter le signal comme par des des disons des distributions probabiliste qui sont ici une mixture de gasienne donc là imaginez votre signal audio dans dans un espace espace par exemple spectro spectrographique et vous allez

Construire des clusters de de C de chaque point étant une petite tranche de signal audio vous allez représenter ce l’ensemble du signal comme étant finalement une distribution qui est une une mixture de ces de ces gosiennes sur ce signal audio et une fois que vous avez construit ces gosien donc ça vous

Avez pas du tout besoin de label ou de texte pour construire ces gosien vous juste essayez de de modéliser par un algorithme de type em la la la distribution du disons des entation acoustique dans ce signal là et ensuite la représentation qui sera sortie de de l’encodeer ça sera les les les

Probabilités postérieur de d’appartenir à chacune des gosiennes pour une tranche de signal donné voilà bon les détails importent pas tellement l’idée c’est qu’en gros vous allez passer de de cetteation très très riche à juste une espèce de probabilité de distribution sur sur un un vecteur qui va vous dire

J’ai plus de chance d’appartenir ici qu’à là et et la plupart des du reste du vecteur est à zéro donc c’est une très très appauvri très très comprimé du signal et ces modèles là ont eu un grand succès au tout début et ont eu les meilleures performances dans ce t cette

Tâche de ABX que j’ai présenté tout à l’heure plus récemment euh des euh des techniques nouvelles sont apparues qui sont assez inspiré en fait des des modèles de langue euh puisque c’est ce sont des des modèles qui essaient de prédire le futur à partir du passé donc

Dans ce type de d’algorithme ici vous avez le signal audio euh qui va être encodé dans une reprentation latente et euh l’objectif de l’algorithme c’est de construire sur la base du début du signal une succession de de de tranch euh dans le futur donc le système va essayer de prédire la représentation

L’attente à des tranches successive du futur et ce type d’algorithme donc c’est pas essentiellement c’est pas intrinsèquement un algorithme de compression c’est plutôt un algorithme de prédiction euh donne des reprentations qui sont encore meilleures euh sans doute parce qu’elles intègrent le contexte alors qu’ici on était vraiment dans des des systèmes qui

Prenaient chaque tranche de façon autonome là on a des systèmes qui essaient d’intégrer le contexte et de prédire le futur vous avez ici un un système qui est qui est basé sur qui a la même idée que les les les les modèles de langue masqué où vous prenez votre

Signal vous masquez un petit morceau du signal et vous devez reconstruire les les morceaux qui ont été masqués voilà alors je reviens ici alors pour vous donner une idée de du progrès accompli ces dernières années euh ici vous avez les performances euh dans le dans cette tâche de discrimination ABX des représentation

MFCC qui était la représentation standard des systèmes de reconnaissance automatique de la parole antérieurement donc on a des des des ici un un taux d’erreur de 20 % et au fil des années ont été proposés différents systèmes les premers sont des mixtures de gotien les seconds sont des modèles prédictifs et

Vous voyez qu’on arrive à des performances de qui ont diviser par 5 le taux d’erreur pour donnerider ce que ça représente si vous avez ici un ABX de 20 % voilà et que vous aviez deux catégories mettons a et et i bon euh voilà si vous aviez pas les couleurs

Rouges et bleu vous pourriez pas dire qu’il y a deux il y a deux catégories alors qu’avec un ABX de 5 % on pourrait on peut voir le nuU qu’ y a deux catégories donc en gros quand on a des des représentations qui sont dans cet ordre là de performance c’est des très

Bonnes représentations qui sont bien qui distingue bien les catégories linguistiques voilà euh alors ensuite bon une fois qu’on a cation lique en fait ces reprentations là elles sont continues donc ce qu’on voulait pour notre modèle c’était un système discret donc là on a on utilise simplement du clustering avec une technique de

Clustering camin très simple et là ce que vous voyez c’est les performances anabx quand on fait varier le nombre de de clusters entre 50 donc à peu près 50 ça représente les phonemmes le nombre de phonemmes en en anglais euh en fait c’est pas la meilleure performance on a plutôt des bonnes des

Meilleures performances ici il vaut mieux être en bas parce que c’est un taux d’erreur autour de entre 100 et 500 on va se retrouver avec des bonnes performances en ABX et donc ce que ça veut dire c’est que les clusters qu’on a trouvé les petits éléments pseudo texte

Est quelque chose qui est un peu différent qui est plus fin plus détaillé que les phonem de l’anglais puisquon en a en nombre plus grand si on a si on on réduit ce nombre là on on augmente le taux d’ erreur jusqu’à des des des performances très mauvaises ici et de façon intéressante

Si on met trop de cluster là on a aussi des performances qui tombent tout simplement parce que ce qu’on a fait c’est qu’on a pris un phonomme comme a et on l’a découpé en tellement de de variantes que du coup ça devient difficile de savoir si bat et bat est la

Même chose puisque ça tombe dans des clusters différents donc il y a une espèce de de zone idéale entre 100 et 500 à peu près pour ce type de de chose ici pour donner juste une petite idée à quoi représentent ces clusters donc c’est c’est espèces d’éléments de

Quantisé de de de d’audio euh vous avez ici une représentation on a on a essayé de corréler chaque chaque élément chaque cluster donc il sont numérotés en bas avec des phonemmes de la langue donc en zoomant ici on voit par exemple que le phonemme i en anglais va être encodé par

Plusieurs par quatre ou CIN clusters différents donc le I est fragmenté en cas de C clusters différents et inversement euh oui là le truc c’est un peu dé caler mais si vous prenez un cluster donné par exle vous prenez celui qui est tout à droite là si c’est plus

C’est plus clair pour celui-là il intervient dans plusieurs phonemes d’accord donc il s’agit pas de phonem il s’agit pas de représentation linguistique véritablement mais c’est c’est c’est une espèce de c’est néanmoins une représentation discrète voilà et aussi ce qu’on peut voir ici c’est que le silence par exemple a une représentation très riche

Il y a beaucoup de clusters qui code le silence et le silence c’est en fait c’est ça correspond au bruit de fond qui est derrière et ça ça qui bien avec l’idée qu’on voulait que ces ces représentations là puissent coder des éléments non linguistiques donc le silence c’est l’exemple extrême mais

Évidemment les rire et tous ces choses là vont aussi recevoir des représentations différentes dans cette dans ce code là là vous avez le même le même diagramme avec 500 clusters au lieu de 50 clusters et en gros exactement les mêmes propriétés ça ne change pas une autre chose qu’on peut étudier c’est la

Durée de ces clusters on a ici la durée des phonemmes dans une langue comme le français ou l’anglais qui qui qui tourne autour de 80 misees et vous avez la durée des clusters qui est complètement différente ici qui est plutôt des des des des clusters qui sont de très très

Courte durée donc c’est pas du tout des unités linguistiques euh qui ont été découvertes de cette façon-là néanmoins elle passe le test ABX de discrimination et donc c’est bon pour nous alors voilà donc maintenant on a des représentations discrète euh et notre objectif là ça va être de

D’entraîner un modèle de langue à partir de là et donc là c’est très simple on entraî un modèle de langue comme si c’était du texte aucun problème simplement on voudrait quand même savoir si le modèle de langue a appris quelque chose d’utile à partir de ces morceaux

De signal qui ont été découpés sign et donc la façon dont dont on l’a testé c’est qu’on s’est à nouveau inspiré des tâches qui sont utilisées chez les bébés pour savoir si le bébé qui apprend à partir de l’audio a appris quelque chose de linguistique ou pas au-delà des

Phonemes et donc là nous avons deux tâches une tâche lexicale qui s’appelle ici spot the word trouver le mot et donc on présente au système deux deux mots euh un qui existe vraiment en anglais et un qui n’existe pas je sais pas si vous connaissez voilà donc brick

Existe en anglais mais Blick n’existe pas et comme le système le modèle de langue c’est un modèle probabiliste on peut lui on peut calculer la probabilité de chacun de ces deux énoncés avec le modèle de sorte que ce qu’on va on va évaluer ses performances en disant que

La probabilité associé vra mot dev sil a appris quelque chose de l’anglais la probabilité associé à brick devrait être supérieure à la probabilité associé à BL et si c’est le cas on lui donne un bon point si c’est non lui donne donc là ça nous permet d’évaluer si le système a

Appris quelque chose qui on à voir avec la forme des mots et on peut faire la même chose avec des phrases on peut faire des morceaux de phras des phrases comme like est une bonne phrase versus lik qui n’est pas une bonne phrase et donc la même chose on va pouvoir savoir

Si le modèle a pris quelque chose de la syntaxe voilà donc là les performances sont ici donc on retrouve ici les performances ABX de discrimination avec des unités ici discrète il y a on a comparé deux modèles le modèle CPC le modèle ubert discrétisé avec un certain nombre de

Clusters on retrouve cette petite phénomène de cuvette et là les performances sur le test lexical donc brick versus Blick et vous voyez que le les modèles aussi aime pas trop quand il y a quand il y a pas assez de cluster donc il vaut mieux avoir ici trop de

Cluster que pas assez quelque part si on a découpé le signal audio en trop d’unité le langage le modèle langage arrive à rattraper euh et finalement à à prendre quand même des mots même si on a découpé le a en trop de morceaux trop petits les performances syntaxiques sont

Assez proches du hasard elles sont pas très très bonne mais elles sont pas au hasard donc il y a quand même un apprentissage qui est réalisé au niveau syntaxique et ça ça correspond un peu ce qu’on a vu hein le le quand vous avez écouté les conversations tout à l’heure

Il y avait des mots on on comprenait des mots en anglais il y avait un petit peu pe de syntaxe dans le sens où il y avait des petits morceaux de phrases qui avaient qui qui donent de bout mais par contre sur les les les dépendances à plus longue distance le modèle n’était

Pas très bon ok alors voilà donc je vais peut-être passer un petit peu plus vite là-dessus donc la une autre tâche qui a été beaucoup étudiée c’est la tâche de de de transcodage on va dire donc vous prenez de l’audio une phrase dans une langue quelconque vous l’encodez dans

Dans cette même discrète et la tâche ensuite c’est de la reconstruire éventuellement en changeant la voie avec la voix d’une autre personne alors en passant par cette augentation qui doit être discrète et là ce qu’on peut calculer ici c’est le taux de compression le bit rate dont j’ai

Parlé tout à l’heure euh c’est une autre façon de d’évaluer ces unités discrètes qu’on a découvert dont on vient de parler et euh donc ici on peut faire un diagramme on va représenter le le taux de compression bit rate donc on a en gros 50 ou 40 bits par seconde ça ça

Correspond au texte et puis on va vers des moins de des des représentations plus plus riches donc avec un un bitrate plus important et ici vous avez la qualité de laés de la reconstruction de la resynthèse évaluée par un humain hein vous faites écouter les la parole

Rynthétisé et puis voilà ça peut être quand c’est qu c’est très très bon ça correspond aussi à l’original quand c’est zéro c’est très très mauvais et voilà donc là c’est les les les différents laboratoir qui ont participé à cette à ce à ce défi à cette compétition chaque point représente un

Modèle et ce qu’on voit en gros c’est une espèce de de de de on a dessiné ici une espèce de d’enveloppe convexe de des résultats en vous montrant les si les résultats les plus intéressants sont à la frontière hein à la frontière ce qu’on voit c’est

Qu’on voit une espèce de de de tradeof on a on peut avoir des modèles qui vont avoir un bitrate proche du texte mais en fait ils vont avoir une reconstruction enfin ils vont avoir une qualité assez mauvaise on peut avoir des modèles qui sont de meilleure qualité que les systèmes de

Synthèse à l’état de l’art donc ça c’est ce point ici correspond au système de synthèse qui utilise le texte donc on peut avoir une qualité meilleure mais alors avec une un bitrade plus important donc il y a ce tradeof entre la la finesse des des unités discrètes et et

Qui du coup conduit à une augmentation du débit et la qualité de la reconstruction voilà alors donc ici je donner juste un exemple de ce que ça donne vous avez entré comme ça sans aucun texte on l’ juste entraîné à partir DEES unités discrètes il encode et

Ensuite il va décoder ça avec sa propre voix donc les performances sont pas trop mauvaises ce qui veut ce qui indique donc que cette rradation elle a gardé l’information linguistique la plus importante ok alors maintenant on va mettre tout ça ensemble et on va pouvoir une fois qu’on a on

A raccrocher l’encodeur le décodeur et le modèle de langue on va pouvoir faire des choses du type génératif donc maintenant on va pouvoir on va pouvoir sampler échantillonn merci beaucoup échantillonn dans le le modèle de langue des des exemples de de de phrases dans ces dans dans ce pseudo texte et on va

Pouvoir écouter ce que ça donne alors comme dans tous les modèles génératifs on a un on peut régler en fait la la diversité des générations avec la température de l’échantillonnage donc c’est un paramètre d’échantillonnage et donc ce que on peut écouter ce que ça donne donc quand on est on échantillonne

Avec une faible température le système va tendance à prendre les choses les plus probables et va se répéter énormément ça donne ça prop jamesortytyty donc là là vous avez typiquement ce qui se passe avec des basses températures le système se répète il répète les mots les plus fréquents et

En plus de ça il répète le copyright de la du de l’ensemble d’entraînement ce qui est une illustration du problème de mémorisation dont on a parlé auparavant quand vous avez une température très haute et ben ça refuse de jouer là donc beaucoup de choses qui sont pas des mots

Là alors quand on est dans la température au milieu on a a quelque chose comme nouau ça pas dire grand chose mais quand même il y a plus de mots a plus de cohérence locale voilà donc là c’est c’est donc c’est ce qu’on a obtenu alors JEI parlé

Tout à l’heure de l’intonation et du rythme en fait il s’avère en regardant en détail que que ces fameux clusters qu’on a découvert en fait ne code pas très bien la tonation mais donc c’est pas très difficile il suffit de rajouter un autre encodeur qui va prendre quelque chose ce

Qui s’appelle le F0 l’extraire et le quantiser on peut rajouter donc des couches en fait de représentation qui vont nous permettre de coder un petit peu les propriétés qu’on veut qui manque de des représentations antérieures la raison pourquelle le le le le F0 l’intonation n’est pas représentée dans les premières unités

C’est que en anglais l’intonation n’est pas distinctif si on avait entraîné notre système sur du chinois on aurait sans doute une meilleure représentation de de la fréquence orientale qui est utilisé au niveau lexical ok alors euh donc une fois qu’on a si on a rajouté cette cette propriété nationelle on peut du coup

Illustrer ce que ce type de modèle peut faire là là c’est un modèle qui a été entraîné spécifiquement à une tâche qui a été fine tuné on dit affiné à faire une tâche de traduction émotionnelle donc la façon on a fait ça c’est que on a donné on donne une entrée

Comme et la [Rires] sortie donc le système peut changer le le contenu émotionnel il va le faire grâce à ses unités discrètes ce qui se passe ici c’est que le langage modèle donc remplacé par un système séquence à séquence qui prend en entré la séquence et qui va l’éditer en rajoutant du rire

Ou en rajoutant des éléments qui permettent ensuite de modéliser cette cette transformation qui est je passe d’ d’un d’un d’un énoncé normal à un énoncé triste gay et cetera donc c’est juste une illustration ce qu’on peut faire avec ce type de chos voilà et donc ici bon ici donc ça c’est une petite

Démonstration qu’on a fait il y a déjà un petit moment de où on a fait du prompting he donc de la de l’amorçage en donnant au système donc qui a qui maintenant combine l’intonation et les éléments phonétique dans un même système on lu on l’a amorcé

Avec ici un extrait de Jane Austin je crois alors ça c’était l’amorce and finally asked to something like Sting them to r it was a rough and thin range of mountains and a horse Tower riding along the road to seek the stars which made the Dead Man coming and to

Take the first precinct to follow the precinct request in the Republic and it should have had enough of the best manner and getting the rhyme from the hungry precinct men swept over the stars within that diversity of slave labor he was quite shocked when I asked

Her whether wine was allowed to sit down and presently asked her if he would take a simple patient voilà donc je vais arrêter là mais en gros avec le l’amorçage on peut on amorce et ensuite le système va continuer et il va continuer chaque fois d’une façon différente si on relance la

Morce on va avoir une autre continuation le système n’est pas déterministe puisque c’est un un système probabiliste essentiellement voilà donc je je pas donner plus d’exemples de ça alors c’est pas complètement terminé parce qu’il faut modéliser le dialogue donc pour le dialogue euh faut tenir compte du fait

Que les humains ne parlent pas dans une succession absolue comme on l’a dit dans l’introduction même si les gens évitent de s’interrompre il y a des chevauchements et des des interruptions et des différents types de phénomènes qui se produisent avec quand deux personnes sont en train de parler et

Donc ça c’est très important si on veut modéliser un dialogue de prendre en compte cet aspect temporel et de synchronisation des des différents canaux de communication alors comment est-ce qu’on peut faire ça avec une architecture standard de de tall bah on peut pas plus vraiment il faut commencer

À changer tout petit peu l’architecture et là euh ce qui a été proposé par Tuan donc toujours cet étudiant en commun euh c’est de dupliquer euh les euh les modèles de langue donc ici vous avez ce qu’on a montré tout à l’heure un encodeur un décodeur avec ici un modèle

De langue alors on va les dupliquer on va faire des clones deux clones absolument identiques mais chaque clone va être nourri par un un des interlocuteurs si on a un dialogue si on a deux personnes qui parlent il y aura l’interlocuteur de gauche l’interlocuteur de droite ils vont le modèle va encoder et

Représenter ce qui se passe dans chaque canal et alors la façon dont ces deux ces deux copies ces deux clones vont pouvoir communiquer l’information on va le on va les connecter par des attentions croisé benant a parlé d’atention tout à l’heure donc là techniquement c’est un petit peu compliqué ce schéma mais en

Gros dans les les modèles modèles de type transformer on a des têtes d’attention qui permettent d’aller regarder le passé du de ce qui a été produit et ici on a des attentions croisées où le c’est un petit peu comme si vous aviez je sais pas deux jumeaux qui étaient connectés enfin deux

Hémisphère connecté par un corps caleux finalement on peut voir ça comme ça avec le avec le un hémisphère qui peut espionner ce que l’autre hémisphère est en train de faire et donc c’est exactement ce qui se produit ici de sorte que voilà on a maintenant on peut donner un

Prompte avec des humains réels donc on va on va Prompter on va donner une amorce pardon sur les deux canaux avec des humains réels et ensuite le système va continuer le dialogue si j’arrive à démarrer ça cette audio non je v pas y arriver si voilà ok donc là quand vous avez entendu

Le Bing c’était la fin de l’ morce et ensuite le système a continué à échanger avec ces ces deux têtes ces deux clones de modèles qui se qui se interconnecté qui qui se renseignent et qui leur permet de modéliser cette figure est assez horrible je m’excuse mais elle ici

On a les distributions des des des intervalles entre les les les tours de parole qui peuvent parfois être négatifs hein dans dans les conversations habituelles on peut commencer à parler avant que l’autre personne a terminé de parler on s’en aperçoit même pas c’est c’est c’est ce qui donne euh les usion

D’une d’une conversation fluide parce qu’en réalité la fin de la parole est prévisible et donc la personne l’autre personne peut commencer à parler avant la fin et on on n pas réellement d’interruption hein et donc on retrouve cette distribution là dans ce type de modèle qui arrive à à prendre la parole

Au bon moment ok alors bon pour autant euh on n pas du tout résolu tous les problèmes euh tout ces tout ce que je vous ai montré et et quand même a été fait avec des des bases de données de audio qui sont extrêmement propre et bien sélectionné pour pouvoir faire ce type

De travail un des problèmes qui se produit avec la la parole donc si on se replace dans le cadre de l’enfant qui apprend la parole autour en utilisant simplement signal audio autour de lui le bébé va plutôt entendre quelque chose comme [Musique] ça ça c’est un enregistrement de

Conversation entre entre amis dans une salle à manger qui a été utilisé pour le le challenge chimes donc là vous avez toutes sortes de bruit tout personne tout le monde parle en même temps et ca donc ça c’est plutôt ce type d’audio que le que l’enfant va entendre et donc si

On donne ce type d’audio naturel au système que j’ai décrit plus rien de marche bon donc il y a encore du travail à faire pour essayer de rendre le système plus robuste au bruit l’autre problème auquel on est confronté c’est comme vous l’avez vu de façon répéter

Ces ces systèmes de langu qui sont appris sur l’audio euh ils sont sont très très bons pour reproduire le la la les on va dire les phénomènes intonationnels expressifs du langage mais par contre sont enfin sont très mauvais pour ce qui est de la sémantique et une des raisons probablement c’est

Que les unités euh qui servent à à l’entrée du langage modèle sont des unités très petites qui sont même plus petites que les phonemes alors que les les modèles de langue habituel utilisent des des unités qui sont proches des mots et du coup si on a des unités qui sont

Proches des mots c’est plus facile d’apprendre sémantique associé à ces mots alors qu’ap prendre la sémantique d’un d’une fraction de de phonem c’est plus difficile et euh les modèles euh ont du mal avec ça et puis le dernier problème évidemment c’est que pour entraîner des modèles euh audio euh euh

Il faudrait pouvoir disposer de quantités de données aussi vastes que celles qui sont euh disponibles pour le texte ce qui est loin d’être le cas euh en tout cas sous une forme qui soit légalement utilisable oups pardon désolé de rejouer ce cette audio horrible bon

Alors je je pense que je vais je vais peut-être passer très rapidement pour que puisse avoir quelques petites questions oui tu peux encore prendre quelques minutes quelques minutes voilà bon euh donc bon c’est ces questions de euh les trois problèmes dont j’ai parlé sont font l’objet de d’études très actives

Euh le une des choses qu’on peut rajouter à cette tâche de de construire à partir de l’audio des représentation linguistique c’est la robustesse au bruit la euh la robustesse à la superposition et et cetera donc ça c’est quelque chose qui est difficile à faire de façon non supervisée sans avoir le

Texte pour aider à sélectionner dans tout ce flux les l’information pertinente mais c’est des choses qui peuvent néanmoins être être être faites donc il y a pas mal de recherches là-dessus je vais passer un petit peu là-dessus une autre chose dont on s’est aperçu qui est un peu un problème c’est

Que les les unités qui sont découverte en réalité sont ne sont pas sont assez loin de de des des des unités linguistiques comme les phonemes ou des unités graphiques telleles qu’elles sont utilisées dans le texte parce qu’elles sont en fait euh plutôt proches on va dire des des elles sont très proches de

L’acoustique et euh ont un problème de de de de manque d’invariance par rapport au contexte donc quand je suis en train de dire par exemple la la voyelle quand je suis en train de dire la syllabe su ou plutôt si en fait au moment où je

Vais dire le S euh je fais pas du tout le même geste S et en fait ces deux sons s peuvent être distinctifs dans certaines langues par en russe par exemple ça pourrait être deux langues de de de son de sons différents et donc ça c’est ce qu’

Appppelle la coarticulation en fait les les les sons audio sont produits par un appareil qui essaie d’optimiser son son effort et donc ça induit des tas d’effets acoustiques qui sont pas du tout pris en compte pas du tout modélisés et qui qui ensuite sont finalement passés aux étages supérieurs

Et donc c’est le le modèle langue qui doit se débrouiller avec cette information là qui est un problème supplémentaire qui n’existe pas dans le texte dans le texte on a des on a on a des unités qui sont complètement indépendantes du contexte phonétique donc ça c’est des sujets de

Recherche euh qui sont assez actifs le le second problème c’est celui de la de la taille des unités hein donc je vous avais dit que les les unités qui sont découvertes sont des des choses qui sont très petites qui sont plus petites que les phonemmes alors qu’on a l’intuition

Que apprendre une langue c’est apprendre à partir des mots c’est construire sur les les mots euh apprendre le sens des mots et et les combinés dans des phrases plus grandes et donc euh il y a tout un un volet de la recherche qui essaie de trouver des unités plus grandes de de

Segmenter en fait le signal audio continu en en unité qui serait plus proche de d’unités comme les morphèmes ou les mots automatiquement à nouveau et ensuite de se servir de ces unitésl pour euh être à l’entrée du langage du du modèle de langue c’est en fait des tâches très difficiles pour l’instant

Euh je va pas il y a a tout un tas de raisons linguistiques pour lequ c’est difficile euh mais euh ce graphe peut peut-être vous résumer la situation là c’est en gros si on essaie de faire cette tâche de segmentation à partir de texte où on a enlevé les espaces prenez

Un texte vous enlevez l’esace vous essayez de retrouver où étaient les où étaient les espaces voilà les meilleur performance qu’on peut obtenir ici sur un axe euh euh qui va entre 0 et 100 euh des modèles automatiques vous avez en gros voilà en fait vous vouvez atteindre

60 70 % correct euh dans ce type de tâche si vous essayez de refaire la même chose avec ve de l’audio les performances sont vraiment beaucoup beaucoup plus basses donc c’est très difficile de trouver les débuts les fins de mots dans la parole continue euh c’est pourtant quelque chose dont on

Sait que les enfants que les enfants arrivent à faire et qu’on n pas encore réussi à comprendre et à pouvoir reproduire quelques progrès récents ont été fait mais je vais pas du tout rentrer dans les détails de ça le le dernier problème qui est qui est vraiment probablement peut-être le plus

Important c’est celui des données euh la plupart des des données audio qui existent euh qui soit en en en open source sont des données qui ont été fait à partir du texte c’est des audiobooks c’est du texte lu al ça c’est c’est problématique parce que justement on veut construire un système qui se

Débarrasse du texte qui va être capable de de capturer les nuances et de l’expressivité mais les bases de données sur lesquell on entraî nos modèles en fait une texte lu voilà donc ça c’est un gros problème qui limite ce type de recherche euh donc alors il existe

Évidemment sur internet des des des une quantité croissante de de contenu audio euro comme des podcasts des radios locales les échanges entre joueurs dans des dans des jeux vidéos en en ligne mais il y a pas encore de ressources open source qui a été construite à

Grande échelle à partir de ce type de ressource et évidemment les problèm dont Benoin a parlé de de de de vie privée et de donné de données disons de copyright et Cera sont sont sont beaucoup plus grands avec de l’audio qu’avec du texte euh voilà donc on a commencé un

Tout petit effort dans cette direction là de constituer un un dataset qui permettrait au moins de d’entraîner de la synthèse expressive avec le DataSet expresso et donc là l’idée c’est que typiquement dans les la façon dont le le le speech expressif la la parole expressive a été

Faite c’est de prendre des acteurs et de le de leur dire lisez-moi cette phrase euh de façon triste gay et cetera comme la petite démonstration que je vous ai fait alors ça ça donne des résultats qui sont bien mais il sont pas tout à fait naturels donc donc ce qu’on a essayé de

Faire c’était de de d’avoir des dialogues improvisés donc on a dit aux gens imaginez-vous dans une situation et donc avec des acteurs qui sont relativement bons on a des choses qui sont un petit peu plus expressives ça c’est juste un exemple oh my go you non non ok

Oh SRY voilà donc donc en fait on a fait on a fait on essayé d’avoir ça alors évidemment c’est des c’est des choses qui sont qui qui échappe le paradigme habituel des des dataset audio où on a des annotations et on a voilà là on peut pas vraiment annoter ça c’est vraiment

Trop difficile on peut annoter le contenu linguistique mais tout le contenu expressif n’est pas anotable mais c’est pas un problème pu puisque justement notre système n’a pas besoin d’annotation voilà donc notre objectif là c’était d’inciter voilà la collecte la fabrication de ressources qui permettrait de capturer toute la

Richesse de la réalité beaucoup à une échelle beaucoup plus grande que ce qui a été fait jusqu’à maintenant donc on a une collaboration avec avec l’université avec deux universités américaines pour essayer de de rendre passer ce type de de choses à l’échelle et puis je vais passer à ça parce que

J’aijà expliqué pourquoi c’était utile en gros ce type d’approche donc le tal le tal sans texte est actuellement utilisé dans un certain nombre de de projets annexes àta des collègues sont se sont inspirés de ces travaux ont pris directement les techniques et les ont appliqué à la traduction de traduction passer de la

Parole à la parole directement sans passer par le texte donc ça vous donne quelque chose donc là ça passe directement de l’audio à l’audio sans passer par le texte là vous voyez qu’en fait dans C exemple l’expressivité n’est pas passée parce qu’ils sont pas encore intégrés notre système expressif mais le dernier

Modèle le fait voilà et bien je vais voilà moi je pense que je vais m’arrêter là et je vais ouvrir voilà quelques ressources si vous êtes intéressé à à suivre ce type de travaux et puis donc ici je voudrais je tenais à remercier toute l’équipe qui a

Contribué au cours des années à ce à ce à ce travail on a d’un côté une équipe universitaire à l’enss qui a contribué à établir les métriques d’évaluation les benchmark et les et les les défis internationaux pour pour pouvoir mesurer le progrès dans ce secteur et puis à

Droite une équipe de de collègues ametta qui a construit les modèles avec un certain nombre de d’étudiants ciffres qui sont au milieu entre les deux voilà ben je vous remercie beaucoup de votre [Applaudissements] [Musique] attention

Apprendre les langues aux machines (6) – Benoît Sagot (2023-2024)