Apprendre les langues aux machines (4) - Benoît Sagot (2023-2024)

Enseignement 2023-2024 : Apprendre les langues aux machines
Séminaire du 15 décembre 2023 : Deux exemples d’usage des transducteurs en linguistique

Intervenant : Guillaume Jacques, directeur de recherche, CNRS, directeur d’étude, EPHE

Les transducteurs sont un outil précieux pour plusieurs domaines distincts de la linguistique. En morphologie, ils permettent de produire des descriptions explicites et cohérentes des paradigmes morphologiques, aussi bien pour les langues bien dotées que pour les langues à tradition orale. En linguistique historique, ils peuvent servir à modéliser les changements phonétiques, et à reconstruire automatiquement des protoformes à partir de langues attestées. Cette présentation illustrera ces deux types d’applications, et montrera les bénéfices qu’ils peuvent apporter à ces disciplines.

Retrouvez les enregistrements audios et vidéos du cycle :
https://www.college-de-france.fr/fr/agenda/seminaire/apprendre-les-langues-aux-machines

Chaire Informatique et sciences numériques
Professeur : Benoît Sagot

Retrouvez tous ses enseignements :
https://www.college-de-france.fr/fr/chaire/benoit-sagot-informatique-et-sciences-numeriques-chaire-annuelle

Le Collège de France est une institution de recherche fondamentale dans tous les domaines de la connaissance et un lieu de diffusion du « savoir en train de se faire » ouvert à tous.
Les cours, séminaires, colloques sont enregistrés puis mis à disposition du public sur le site internet du Collège de France.

Découvrez toutes les ressources du Collège de France :
https://www.college-de-france.fr

Suivez-nous sur :
Facebook : https://www.facebook.com/College.de.France
Instagram : https://www.instagram.com/collegedefrance
X (ex-Twitter) : https://twitter.com/cdf1530
LinkedIn : https://fr.linkedin.com/company/collègedefrance

[Musique] [Musique] donc je remercie beaucoup Guillaume Jacques qui est directeur de recherche au CNRS directeur cumulant à l’École Pratique d’autres études et donc membre du cro le centre de recherche sur les langues d’Asie orientale de nous faire le plaisir de d’assurer le séminaire d’aujourd’hui Guillaume outre le fait

Que ce soit un excellent linguiste est un un collègue très sympathique avec lequel j’ai eu la chance de de collaborer il y a quelques années c’est un linguiste de terrain un linguiste formel et peut-être un des plus verser dans les approches computationnelles des linguistes de terrain et des linguistes formels que je

Connaisse et c’était donc bien naturel de t’avoir aujourd’hui Guillaume je te laisse la parole ben merci Benoît et je je suis très honoré de de faire cette présentation aujourd’hui alors donc euh les comme l’a dit Benoît je suis un linguiste de terrain avant tout et les linguistes de terrain

Étudient la divers C des langues l’immense majorité des langues qui sont actuellement parlées ce sont des langues qui qui sont en danger ce sont des langues à tradition orale qui sont peu ou pas écrites et un grand nombre de ces langues risque de disparaître avant d’avoir été documenté de façon

Satisfaisante en en amont de du traitement textuel des langues c’estàdire du du tra tritement comme on a vu aujourd’hui et la semaine dernière de de document transcrit une une étape nécessaire est de de de transcrire la parole alors dans le cas des langues de grandes civilisation de langues qui ont qui sont

Bien doté la transcription le système graphique de transcription ne pose plus problème et on a maintenant même des des systèmes performants qui font automatiquement la transcription mais lorsqu’il s’agit de langues qui sont à l’origine complètement inconnu il y a une étape préliminaire qui est celle de ce qu’on appelle en linguistique l’analyse

Phonologique qui consiste à identifier les distinctions de prononciation qui sont qui qui produit une différence de son par rapport à celle qui relève de la variation libre alors cette tâche n’est pas du tout triviale en même en en fait même les linguises de terrain parfois passent

Des des mois voire même des années avant d’arriver à une transcription satisfaisante et cette étape est nécessaire avant de pouvoir appliquer par exemple une transcription automatique et avant de pouvoir effectuer des analyses plus détaillées et des analyses automatiques donc une première tâche dont je vais parler c’est comment

Les les langages de les les des transducteurs l’expression régulière dont a parlé Benoît Sagot dans son séminaire peuvent nous aider à mieux décrire les langues à tradition orale dans la pratique du du linguistme de terrain une autre question c’est une fois qu’on a donc décrit des

Langues la tradition oral on a on a collecté énormément de données qu’est-ce que ces données à quoi servent-elles qu’est-ce que qui nous enseigne d’une part sur le fonctionnement du langage et d’autre part sur la préhistoire des populations humaines puisque des des langues apparenté qui on un ancêtre commun nous permettent dans certaines

Conditions de de réduire les hypothèses possibles sur les relations entre différentes populations humaines donc dans dans une époque préhistorique donc c’est de ces deux sujets dont je vais parler aujourd’hui et à travers donc deux de cas d’étude particulier d’une part la description des des conjugaisons dans certaines

Langues à trahition orale du Népal sur laquelle j’ai travaillé sur laquelle Benoît Sagot et moi avons collaborer il y a un certain nombre d’années et d’autre part comment donc les transducteurs peuvent être utilisés pour étudier comment les langues sont apparentées les unes aux autres donc ça Benoît Sagot a

Mentionné la modisation des changements phonétiques hein donc c’est de cela dont on va parler aujourd’hui alors tout d’abord la description des formes verbales hein la la en quelque sorte la description des conjugaisons hein donc là vous avez un un champ au Népal vous voyez une pente un champ en

Terrasse à l’endroit où j’ai effectué mon terrain alors il faut comprendre que lorsqu’on décrit un système verbal lorsqu’on on est face à une langue qui n’a jamais été décrite de façon satisfaisante auparavant une une étape préliminaire avant même de de vouloir prétendre donc faire un tableau de conjugaison c’est

Effectivement comme je l’ai dit juste avant de faire une analyse phonologique correcte de pouvoir identifier quelles sont les oppositions sonores qui sont pertinentes et lesquelles ne sont pas pertinentes et et ça c’est quelque chose qui demande de longues années alors je vais vous donner un exemple de mon expérience personnelle

Qui illustre à quel point c’est important donc une fois sur une autre langue le Star une langue du Suan j’apprends mot le mot pour aller qui veut dire rapide et la première fois le mon enseignant de de star m’a dit ça se dit H bio la deuxième fois il m’a dit ça se

Pro alors j’étais pas certain d’avoir bien entendu et ça c’est très important lorsqu’on fait du terrain c’est-à-dire de ne pas avoir trop confiance en ses propres transcriptions je dis souvent à mes doctorants le jour où vous avez confiance au vos transcription c’est là où vous allez faire des erreurs donc

J’ai demandé mon informateur est-ce que ça se ou est-ce que ça seense et sa réponse était tu viens de dire deux fois la même chose alors je pense que ça illustre à quel point la perception catégorielle des différences sonores varie d’une langue à l’autre et le Ling de terrain qui découvre une

Nouvelle langue doit s’adapter à un système différent et surtout donc noter uniquement les distinctions pertinentes mais ne pas noter les distinctions qui ne sont pas pertinentes et et donc trouver cette cette juste ce juste milieu demande un travail méticuleux et ce travail s’étend aussi à l’analyse de la conjugaison parce

Qu’elle contient parfois des oppositions qui sont très difficiles à transcrire et c’est à ce titre que l’approche que je vais présenter à tout son sens alors d’abord je vais faire une petite introduction rapide un petit voyage on avait un petit voyage au Népal et je vais vous présenter un petit

Peu la famille sinotiibétaine donc les langues dont on va parler aujourd’hui ce sont les langues kiranti qui sont donc un sous-groupe de cette famille sinotibétaine donc là vous avez une philogénie à laquelle notre équipe a produit de notre équipe il y a quelques années c’est un sous-groupe de cette famille des langues lointainement

Apparenté aux Tibétains et au chinois de la même façon que le Breton est apparenté au bengaliin ou à l’albanis hein donc c’est pas des relations qui sont immédiatement évidentes mais c’est c’est des langues qui ont un ancêtre commun très lointain alors ce sont des langues qui sont intéressantes à ce titre puisque le

Chinois est une langue qui est classiquement une langue qui a peu de conjugaison qui a qui a pas de conjugaison à personne par exemple alors que les langues quiiranti comme on va le voir ont une conjugaison assez complexe donc on a à l’intérieur d’une même famille des langues de structures très

Diverses voilà elles sont parlé dans cette région au Népal je fais un petit zoom et on va parler en priorité de deux langues de cette famille le kraling et le Doui hein donc kraling est plus au nord vous voyz le petit rond et c’est une langue qui est en contact avec le

Cherpa et donc de des villages Cali on peut voir l’evverest hein donc c’est c’est c’est c’est une r au nord du Népal alors concrètement comment est-ce qu’on fait pour décrire une conjugaison et bien la la méthode habituelle qui que que suivent absolument tous les les lingu terrain c’est y a deux méthodes

Possibles la première méthode est une méthode philologique c’est-à-dire on a d’abord un corpus de texte par exemple imaginons on travaille sur une langue dans laquelle la Bible a déjà été traduite et euh on classifie toutes les formes qu’on a dans le texte euh et on [Musique]

Euh sur sur cette base on on on on on l’a on analyse ces données de façon à former des des des tableaux de conjugaison ça c’est une une une approche qui est valide pour les langues qui sont déjà des langues écrites hein pour les langues à tradition orale c’est

Rarement possible mais c’est possible lorsqu’on a un certain une certaine quantité de texte mais en général donc cette approche est est plus rarement appliqué lorsqu’on lorsqu’on travaille sur des tradition orale l’approche la plus immédiate c’est de les licitations c’est-à-dire de demander une à une les formes à des locuteurs

Natifs donc là c’est c’est vous avez un exemple de d’une d’une session de licitation avec Drana mon mon mon enseignant du du Kaling alors évidemment cette ces deux approches ont des problèmes alors l’approche philologique évidemment requiert le prérequis et d’avoir déjà un corpus de texte transcrit et pour transcrire un corpus

De texte ça la présuppose connaître la langue suffisamment et connaître aussi déjà un minimum le système verbal donc ça c’est R une approche qu’on peut appliquer euh en premier et par ailleurs même dans un grand corpus alors comme on est quand même face à des langues dans lesquelles

Le le corpus reste très très modeste comparé à celui qu’on peut avoir pour des langu comme le français ou à plus forte raison l’anglais on est on est dans des langues où où au mieux on peut avoir par exemple la Bible qui a été traduite mais mais ça ça c’est déjà le le

Le extrêmement rare et le plus souvent on a on ne dispose que que de que d’une une heure de de texte transcrit par exemple donc là dans dans ces conditions il est évident que la majorité des formes de la conjugaison ne va pas être attestée dans les textes l’autre méthode c’est la méthode

D’élicitation alors donc demander une à une les formes et s’assurer qu’on a bien noté toutes les formes de la conjugaison alors le problème c’est tout d’abord il peut y avoir des des malentendus entre le linguiste et les locuteurs qui lui enseignne la langue alors typiquement le malentendu qui arrive presque systématiquement c’est

Quand on demande une deuxième personne la votre enseignant soit vous donne l’impératif vous lui donne manger la deuxième personne soit il vous donne manger l’impératif ou il vous va vous dire la première personne donc vous lui dites tu manges comment on dit tu manges il dit je mange voilà typiquement c’est c’est

Quelque chose qui se produit de façon récurrente alors évidemment des Hees de ce type on peut les corriger mais il y a quand même des cas où où où où on a besoin de de passer du temps pour vérifier si on ne fait pas on risque d’avoir des erreurs systématiques et ça

Arrive parfois qu’il y a des descriptions de langue qui n’ont pas été assez méticuleuses dans laquell on a des erreurs systématiques pour éviter ces erreurs systématiques il est utile de revenir à l’approche philologique une fois qu’on a une description suffisamment détaillée des de la conjugaison on peut revérifier

Dans les textes qu’on a transcrit he si effectivement les formes qu’on trouve dans dans dans le texte ressemblent à ce qu’on a élicité hein alors le problème de l’licitation aussi c’est que parfois ça peut induire le le le le le le locuteur en erreur c’est-à-dire le fait de de répéter des

Mots il peut inventer des formes qui n’existent pas dans la langue donc tout tout ça c’est des chose en amont de tout le travail d’analyse et de modilisation qu’il faut avoir déjà réglé et il y a aussi le problème de la cohérence des données alors le problème de la

Cohérence des données la semaine dernière la présentation de Jean-Baptiste camps a montré ce que ça pouvait donner c’estàdire que lorsqu’on est face à des langues même de grandes langues tradition comme le Français qui ont une orthographe et bien même il avait montré un exemple de la la

Chanson de Rolland si je me souvi bien dans laquelle on avait un mot qui était orthographié de deux façons différentes dans la même dans dans dans le même verre hein donc on a on peut avoir une une FL une variation dans l’orthographe une orthographe qui est pas cohérente

Alors pour les grandes langues pour des langues anciennes pour des langues la tradition orale la traduction écrite pardon le problème n’est pas massif parce qu’on peut on a suffisamment de données pour normaliser les texte mais en revanche lorsqu’on fait une description la première description d’une langue et qu’on dispose de d’une quantité d’cement

Limitée on a une responsabilité d’avoir des données les plus propres possible hein et donc on peut pas se permettre d’avoir des euh unee orthographe incohérente hein et il faut aussi une orthographe qui encode toutes les oppositions euh pertinentes alors quel est le problème de la cohérence des données est particulièrement important

Dans l’étude de la conjugaison alors je vais donner un exemple une excellente grammaire la grammaire du Doui de George fond Dream un des plus grands spécialistes de de la la linguistique himalayenne hein et donc voilà la la photographie de son de son informateur principal bimalsing qui lui

Pris cette langue donc c’est une une grammaire remarquable et qui qui m’a beaucoup servi moi-même dans mes travaux sur le kraling donc je vais faire une petite critique de certaines choses dans cette grammaire pour vous illustrer le type de problème que même les meilleurs linguistes peuvent avoir lorsqu’ils euh

Travaillent uniquement à la main donc voilà vous avez ici un paradigme ce qu’on appelle un paradigme c’est une conjugaison vous voyez beaucoup de formes parce que c’est c’est c’est une langue dans laquelle le verbe s’accorde à la fois avec le sujet et l’objet et comme on peut le voir ici

Hein dans cette forme atonga hein la c’est une langue dans laquelle donc on a des préfixes on a des suffixes et on a des alternances de voyeles donc on va surtout s’intéresser nous aujourd’hui aux alternances de voyelles et je vais faire un zoom sur cette partie donc

Et ici donc vous avez la comparaison entre deux euh groupes de conjugaisons vous avez d’une part la conjugison transitive et d’autre part la conjugaison intransitive correspondante hein donc là j’ai pris le verbe poser hein et le verb venir he qui qui qui ont la même voyelle et j’ai comparé les

Formes qui sont ident antique dans dans dans ces deux paradigmes alors la description de vrim donc c’est dans cette langue il y a une opposition de voyelle alors cette opposition de voyelle est très difficile à percevoir dans le lirenti hein donc là j’avais donné un exemple en St qui était

Plus imédiatement évident avec des groupes de consonnes pour un locuteur français en quand quand pour pour un Français disons comme nous n’avons pas dans notre langue d’opposition de longueur c’est particulièrement difficile d’entendre les oppos langur dans autrre langue et en kiranti c’est le problème principal pour bien transcrire et d’ailleurs la plupart des

Descriptions de langue en fait ne note pas la la longueur de voyelle même si elle existe parce que c’est beaucoup plus difficile que ça en allair alors il note donc dans son paradigme des voyelles courtes dans certains cas et des voyelles don dans d’autres alors dans le paradigme du

Verbe posé vous voyez que vous avez dans certaines formes une voyelle courte et dans quelques rares formes al ce que j’ai noté trois flèche 2 ça veut dire il te il te pose et la 3/ 2 p c’est il vous pose à Toni donc là il a noté une VO

Longue en revanche dans la conjugaison intransitive vous avez des voy long partout alors néanmoins on sait par ailleurs pour des raisons que je ne peux pas expliquer que ces formes devraient être identiques c’est une longueur de voyelle qui est fictive et qui est du à au fait que les voyelles courtes accentuées sont

Difficiles à distinguer des voyelles longues dans cette langue hein donc en fait vous avez une erreur systématique ici vous avez euh des paradigmes qui ont été effectués de façon séparée la conjugision intransitive et la conjugion transitive mais sans une théorie derrière des alternances euh qui qui essayent de combiner toutes les conjugaisons

Ensemble il a pas il est pas revenu là-dessus il a simplement euh transcrit les les données une à une sans essayer de d’harmoniser entre les différentes conjugaisons alors en soit je dirais que c’est c’est ce que font la plupart des linguistes même la quasi totalité des linguistes donc il y a parfois des

Petits détails comme ça d’erreurs qui sont visibles uniquement lorsqu’on a une familiarité avec les langues euh donc le problème ici c’est que les alternances les règles d’alternance dans la conjuguaison sont implicites il a fait certainement en tête des des règles mais il il les a pas décrit de façon claire

Décrit de façon mécanique de telle manière ce qu’on puisse les appliquer hein et lorsqu’on fait ça et bien il est difficile de maintenir cette cohérence alors c’est pas un problème on pourrait dire quel quel est le problème cette différence de longueur après tout ça ça ça va pas empêcher l’interprétation mais

C’est quand quand même important lorsqu’on s’intéresse vraiment à l’histoire des langues et au détails de leur grammaire alors est-ce qu’on a une alternative à ça bien une alternative à la à travailler à la main c’est justement d’utiliser des outils d’analyseur morphologique donc ça peut être un transducteur ça peut être aussi

Simplement une suite d’expression régulière donc comme l’a expliqué Benoît Sagot donc on peut d’abord par exemple faire établir à la main une ébauche de règle d’alternance à partir de de quelques conjugaisons ensuite faire un morphologique ou une d’pr régulière qui permet de générer les formes qu’on attendrait pour chaque verbe et

Ensuite vérifier avec les locuteur de façon systématique si effectivement ce qu’on a supposé comme étant les form attendu sont bien celles qui existent dans la langue et lorsquon observe une erreur et bien on revient à l’étape 1 et on recommence le processus on corrige de façon incrémentielle l’analyseur morphologique

Jusqu’à ce queon on ne détecte plus d’erreur alors l’avantage de cette méthode c’est qu’on a une méthode une description qui est complètement explicite qui est cohérente on peut éviter le type d’erreur qu’il avait dans la description du parorgeri on peut non seulement générer les formes mais on peut aussi avoir un programme

Qui permet de reconnaître les formes donc si on lui donne une forme de la langue qu’on a trouvé dans un texte il peut vous dire cette forme c’est c’est la forme de ce verbe à tel temps à telle personne il peut automatiquement détecter les formes ambigues vous dire voilà cette forme peut

Avoir peut s’interpréter d’une de telle façon ou de telle façon et lorsqu’on fait ça de façon très méticuleuse on peut aussi plus facilement identifier les erreurs et les les vraies irrégularités dans la langue et par ailleurs ça permet après des analyses plus poussées de la structure du système le problème évidemment c’est

Que le le ce tout ce processus demande un une une une étape de revérification qui doit être rigoureuse sous peine d’introduire un grand nombre d’erreurs systématiques et il y a aussi le problème que le même ensemble de données peut être généré par plusieurs transducteurs plusieurs analyses équivalente donc voilà quoi qu’il en

Soit nous avons donc avec Géraldine Valter Benoît Sagot nous avons fait une un analys morphologique du King il y a a presque 10 ans maintenant qui a permis donc de de génér ér toutes les formes des verbes et ce type de travail permis de générer automatiquement d’étapes de

Conjugaison et comme celle que vous voyez ici donc là vous avez par exemple la la racine verbale rot qui veut dire c’est pas une forme réelle c’est une une forme une reconstruction interne de la du de la de la racine de cette de ce verbe et vous avez ici toutes les formes

Qui sont prédites par la l morphologique donc par exemple à titre d’exemple à quoi ressemble donc les les règles donc les expressions régulières qu’il y a à l’intérieur de ce de cette analyse morphologique donc si on prend la dernière ligne vous avez la forme donc donc vous

L’avez toucher avec une flèche par et bien là vous avez à partir de R vous dérivez ran en appliquant plus plusieurs règles vous avez par exemple la règle qui dit que o dans un certain contexte doit devenir o hein notamment quand il est suivi de i de ni et l’autre règle

Qui vous dit que P est t donc puisque la la racine c’est rot doit se nasaliser devenir M et N respectivement avec un ton tombant lorsqu’ils sont suivis de ce suffixe donc vous avez un certain nombre de règles que là j’ai écrit en français mais que euh on exprime sous la forme

D’expression régulière et euh qui permettent donc de générer ces ces formes alors d’un point de vue très concret ça ça permet alors ça permet je vais revenir là-dessus mais ça a permis notamment de faire ce dictionnaire un dictionnaire euh des une sorte de bécherelle du du Kalin un dictionnaire

De conjugaison qui contient euh une liste de de verbes avec des exemples de phrases mais aussi avec des tableaux de conjugaison et après j’ai euh donc fait un un script qui permettait de convertir automatiquement avec des expressions régulières encore de la la de la transcription en en en API donc la

Transcription vous voyez ici hein à l’écriture utilisé au Népal le devanagar mais suivant une orthographe tel que le voulait les locuteurs donc ça a pris un peu de temps de de m’assurer que l’orthographe était exactement celle que voulait les locuteurs en outre hein en outre et ça peut-être

Que Benoît Sagot en parlera plus tard c’est ce travail a permis donc d’avoir une de de comparer la complexité de deux analyses distinctes des mêmes données hein en caline hein donc ça ça permet aussi de de de montrer disons quel l’avantage qu’il peut y avoir à choisir un type

D’analyse morphologique par rapport à un autre voilà donc ce type d’approche me semble euh n’est toujours pas euh quelque chose de très répandu en linguistique de terrain hein alors si les talistes sont en train d’abandonner les les ce type d’approche ou au moins de les garder seulement pour des contextes très

Restreints les linguistes de terrain n’ont pas encore euh donc pleinement bénéficier de de ces outils qui pourtant pourrait faire gagner énormément de temps pour avoir des transcriptions automatiques entre plusieurs orthographes pour s’assurer de la cohérence des données et donc j’espère que les la génération suivante de des linguistes descripteur de langue va davantage

Bénéficier de ces outils alors voilà donc ça c’est la première chose dont je vous souhaitais parler donc la emploi des transducteurs pour décrire mieux décrire les les conjugaisons dans les langues tradition orales l’autre domaine alors là il s’agit pas de mon travail personnel il s’agit du travail de de conun et de

Nathon Hill donc con un ancien doctorant qui ont qui se qui ont élaboré un dictionnaire des langes birmiques donc là encore on est dans la famille C tibétaine là vous avez la la Stelle de mizedi la première Stelle en en birman qui date du du 12e siècle he

Alors ici donc c’est aussi quelque chose dont dont Benoît sagou a parlé très brièvement dans sa présentation donc une fois qu’on a des données bien décrit comme celle qu’on a pour le craling mais là je vais donner un exemple en indo-européen en en indeuropéen vous

Voyez que vous avez des mots si vous ne connaissez pas cette discipline le français TR l’anglais th le Breton tri et cetera vous avez des des mots qui se ressemblent alors certaines ressemblances sont d au fait que ce sont des emprunts certaines ressemblances sont

Dues au pur hasard mais il y a aussi des ressemblances qui sont dues à un héritage commun alors ici je vais prendre des langues anciennes ça va plutôt que des langues modernes ça va être plus un peu plus facile on va prendre exemple de trois en induropéen

Vous avez trayaha en sanscrit tris en latin thir en vieuxoi la langue des Vikings et donc ces langes présentent des correspondances systématiques des ressemblances systématique qui nous amène à penser qu’elles ont un ancêtre commun ça c’est une idée qui qui remonte assez haut en fait qui remonte des qui a

Été exprimé la première fois au 17e siècle par boxhorn au Pays-Bas euh mais qui a vraiment été étudié de façon systématique seulement au 19e siècle donc par Bob et rasmesrask et on a permis on a pu donc au cours du 19e siècle notamment mais même même au 20e siècle identifier un

Certain nombre de changements phonétiques qui avait eu lieu entre la langue ancestrale et ces langues différentses donc par exemple le sanscrit on sait qu’en sanscrit le E de la langue ancestrale passe à a que en latin et passe à éon he et qui après le éon donne en français donc n

TR et que en vieux nroi on a plus de changement on a T qui passe à fe là cette lettre bizarre là c’est un on appelle ça un fororn hein donc c’est ça se prend c le S final passe à R et E passe à ion voilà donc vous avez C ces

Changements là et si on applique à l’inverse ces changement he ce que peut faire un transducteur justement puisqu’il peut aller dans un sens ou dans l’autre il peut soit partir d’une protolangue d’un d’une forme sousjacante et vous donner la forme résultante soit partir des formes finales et revenir à

La à à l’état originale vous pouvez avoir cette forme tres qui n’existe dans aucune langue mais qui correspond à la forme de l’ancêtre commun de ces langues alors on va pas parler de l’indo-européen aujourd’hui mais c’est un peu ce type de de raisonnement alors pour cela d’abord on a besoin

D’identifier les formes apparentées entre les langues hein celle qui remonte à un ancêtre commun on appelle ça dans notre jargon des cognas hein donc les cognas ça exclut les mots qui se ressemblent par hasard hein comme par exemple le le le latin deus et le grec Theos qui qui sont absolument sans

Rapport pour le mot Dieu euh mais euh également les emprunts donc par exemple en anglais ou en français vous savez vous avez beaucoup de mots emprunté dans l’un sens ou dans l’autre bon ben ça euh même des des des locuteurs de ces langues naïfs disons s’en aperçoiv immédiatement et

Évidemment il faut enlever ses emprunts et une fois qu’on a identifié ces cogn on infère la protoforme de leur ancêtre commun en appliquant à l’envers les changements phonétiques hein et ces changements phonétiques on peut vraiment les modéliser avec des expressions régulières on n’ pas besoin de formalisme plus

Compliqué alors le problème on pourrait se dire que si c’est comme ça Cera ça devrait être facile à automatiser mais en fait c’est pas si simple que ça alors il y a plusieurs choses il y a d’abord l’ordre des changements phonétiques dans chaque langue he c’estàdire que là je vous ai montré les

Changements mais en fait est-ce que c’est T qui passe à C en premier ou est-ce que c’est e qui passe à i en premier ou dans l’autre sens c’est pas immédiatement évident hein là en fait si on changeait l’ordre ça ne changera rien mais il y a des cas où ça change le

Résultat et c’est parfois très très très difficile à prévoir hein si on euh si on essaie de faire ça de tête euh et donc il est impossible d’arriver à la bonne réponse du premier coup hein on a besoin d’un processus qui est euh itératif qui est cumulatif hein

Et on a besoin aussi de trouver un un modèle de travail qui permet d’éviter d’introduire une erreur lorsqu’on en corrige une autre c’est typiquement ce qui se passe lorsqu’on essae euh de faire ce type de formalisation alors ce que consun et Nathon Hill ont proposé c’est une structure bipartie

Donc de distinguer l’encodage des cogna d’une part et d’avoir des listes ordonnées de changement phonétique he qui sont qu’on a qu’on suppose avoir eu lieu entre la protolangue donc le protobirmique ici il s’agit pas de reconstruire le proto la protolangue ultime puisque c’est des langues de la famille C tibétaine mais simplement le

Le petit sous-groupe auquel appartiennent qui est relativement ce sont des Lang relativement proches un petit peu comme l’italien l’espagnol si vous voulez et c’est mieux de tester ce type de méthode avec des langues qui sont suffisamment proche afin d’avoir moins de changement phonéti compliqué moins d’alternan morphologique qui

Peuvent embrouiller ce type de de modélisation donc les languesmi vous souveniez vous aviez les langues quienti qui ét donc sonqu en vert au milieu ETM c’est cell qui sont tout en haut qui incl le BIR ancien alors donc c’est ils ont utilisé un transducteur qui s’appelle Foma un un langage transducteur qui a

L’avantage de présenter les changements phonétiques d’une façon que les linguistes ont trouve assez intuitive donc si vous êtes linguiste et que vous voyez ça même si c’est la première fois ça va être relativement facile de deviner ce que ça veut dire donc on peut on va regarder quelques exemples donc vous avez le

Première ligne vous avez I qui avec une flèche alors le le ce qu’il y a après define c’est simplement le nom de du changement donc ce qui ce qui définit vraiment l’effet c’est ce qui suit et donc vous avez I qui donne a lorsqu’il est suivi d’un certain type de ton voilà

Et de même le deuxème ligne et qui donne i quand il est suivi d’un certain type de ton vous avez tout un de changement au milieu et après dans alors ça c’est pour une une langue par parul de la famille bermique le la et ensuite vous avez qui redonne i

Donc là vous avez un changement comme ça et qui redonne I et qui redonne et qui donne i donc qui se confond avec le E et vous avez en fait ensuite le ye initial le ye qui tombe lorsqu’il est suivi de i lorsquil est suivi de certaines consoles

Donc vous avez un ensemble de changements comme ça individuellement chacun de ces changements est relativement facile comprendre il peut s’exprimer aussi avec du langage humain mais lorsque vous appliquez tous ces changements les uns à la suite des autres on peut facilement s’embrouiller alors si vous appliquez ce ce cette

Suite de de d’expression régulière si on veut et que vous avez vous avez une Lang une forme pi en na don peu importe son sens vous appliquez à l’envers tous ces changements ben vous voyez ici vous avez certains changements qui vont causer des confusions par rapport à à à la

Protolangue hein donc vous avez par exemple les e les e les I qui vont se confondre en I vous avez le y aussi qui va tomber devant i ça c’est la dernière ligne donc on s’attend tout à fait hein si vous lui demandez au transducteur quelles sont

Les origines possibles de ce PI et ben il vous vous dire automatiquement vous avez Bi Bi b b bail et cetera voilà alors donc vous avez toutes ces origines possibles pour une même forme mais donc là l’idée c’est de d’avoir des un transducteur pour chaque langue un transductur pour chacune des langues qui

Sont étudiées et dont on essaie de trouver l’ancêtre commun et là si on a ça et bien on peut trianguler entre les formes de ces de ces langues donc par exemple là on sait on a si on an note le fait que pi en Aang pic en Marou et pi ambola

Ce sont des cognas qu’s ont un ancêtre commun et bien alors vous voyez que pic en Marou a trois origines possibles Bi Bi auon h et bi au ton X et que en bola pi peut venir de Bi ou de B parce qu’ils ont des évidemment des transducteurs différents

De la chin hein que je vous épargne mais euh et bien si vous triangulez ça vous voyez qu’il y a qu’une seule origine possible et vous avez à partir de ça un dictionnaire qui est généré automatiquement qui vous donne la protolangue la la protoforme qu’on a déterminé ici et qui vous indique

Lesquells des des différentes formes que vous avez dans la base de données descendent de façon régulière de cette protoforme et lesquells ne descendent pas de cette protoporme donc par exemple vous avez en ce qui est marqué par rangon c’est c’est le birement moderne le y n’est pas ce qu’on attendrait

D’après les transducteurs qu’on a conçus donc il y a peut-être un problème ici he mais au moins vous savez précisément si les données que vous avez mises ensemble sont fiable ou pas et donc vous avez dans l’état actuel de ce dictionnaire qui n’est pas encore publié vraiment ENF il il est accessible

Sur zenodo mais la publication officielle devrait se faire l’année prochaine vous avez une interface qui vous permet donc là à gauche d’éditer votre transducteur et à chaque fois vous faites une modification vous pouvez voir si ça améliore ou au contraire si ça vous fait perdre un certain nombre de de

Cogn ça ça ça fait en sorte que les cognas ne devient ne sont plus expliqué par vos les les les lois phonétiques que vous avez définies donc ici vous avez un exemple où euh on vient d’effectuer un changement dans un des transducteurs et vous avez une un petit smiley qui

Apparaît dans la partie en vert euh parce que vous avez une une forme dans cette langue le le Marou qui était pas euh qui ne pouvait pas être prise en compte par le euh par le transducteur en BA pardon qui pouvait pas être rendu compte par le transducteur et qui après avoir fait

Cette correction peut maintenant être accepté donc vous avez un moyen d’évaluer d’une part dans quelle mesure chaque modification vous faites améliore ou vous fait au contraire perdre de des exemples à chaque étape et donc vous pouvez faire une amélioration itérative de votre transducteur de vos transducteurs donc vous faites on part

Forcément à l’origine d’une transcription manuelle d’une reconstruction vous avez d’abord collecté vos données là ici en l’occurrence c’est le résultat de travaux de linguistique de terrain par de nombreux chercheurs qui ont d’abord fait la première étape de transcrire ces langues vous prenez ces données vous décidez par vous-même queles sont vous

Faites une un premier jugement de quels mots sont cogna et sur cette base vous commencez à identifier les changements phonétiques et vous avez une reconstruction préliminaire donc il faut toujours partir d’un d’un travail préliminaire avec des transducteurs qui qui sont imparfaits ensuite une fois que vous avez des transducteurs même très

Imparfaits et des listes de cogna vous vous pouvez générer automatiquement des protofores et lorsque vous ayez ça et bien vous appliquez le processus le procédé que j’ai mentionné juste avant d’une part vous corrigez un à un vos cogn par exemple si vous rendez compte que des mots qui avaient l’air de se

Ressembler en fait ne se ress patant soit ce sont des des ressemblances foruites soit en fait ce sont des emprunts et bien vous pouvez les exclure ou au contraire vous pouvez vous rendre compte que des mots qui ont un sens très différent mais qui euh malgré tout se

Correspond du point de vue phonétiqu et les considérer finalement comme cogna donc vous pouvez changer ça et vous pouvez aussi modifier les transducteurs pour vous assurer que les mots que vous avez anotés comme cogna soi bien considérés comme étant apparentés par le système et une fois vous avez votre

Trans vos transducteurs corrigés et vos cogn corrigés vous générez automatiquement une nouvelle reconstruction et vous repartez au à l’étape initiale pour corriger à nouveau jusqu’à ce que vous soyez satisfait donc ça ce type d’approche a l’air relativement trivial puisque il s’agit d’expression régulière mais en fait dans la pratique c’est un

Travail qui et qui est rarement effectué par les linguistes de ceux qui pratiquent linguistique historique qui ont l’habitude il faut voir que c’est une discipline qui s’est développée au 19e siècle qui a une très forte tradition et qui chez lesquels il y y a aussi un certain nombre de chercheurs qui sont réfractaires

Au au travail aux approches computationnelles et aussi c’est un travail qui demande beaucoup de temps beaucoup plus de temps que de le faire à la main à l’heure actuelle la différence c’est qu’une fois que c’est fait une fois qu’on a ce système et bien euh d’une part on peut s’assurer qu’ que

Que le système fonctionne vraiment hein qu’il s’agit pas d’une vue de l’esprit mais que euh la la reconstruction effectivement bien rigoureuse euh d’autre part on peut l’appliquer à beaucoup de données additionnelles et enfin on peut l’utiliser pour faire plein d’autres choses ça peut être le point de départ pour étudier différentes choses par

Exemple le taux de changement des des le nombre de changements phonétiques moyen par unité de temps puisque si on a une phillogénie on peut combiner ça avec une philogénie donc il y énormément de choses qu’on peut faire alors là encore ça c’est encore quelque chose qui est

Encore moins utilisé que ce que j’avais mentionné avant donc l’utilisation de transducteur et de et de anur morphologique pour décrire les systèmes de conjugaison des langues à tradition orale l’utilisation des transducteurs pour la linguistique historique ce n’est pas le seul cas c’est ce que je pense

Être le cas le le le le projet le plus le plus abouti pour le moment mais ce sont des projets qui restent à l’état de prototype pour le moment mais j’espère que dans les 10 ans qui vont suivre nous allons avoir généraliser cette approche voilà donc c’est ce que je voulais vous présenter

Aujourd’hui [Musique]

Apprendre les langues aux machines (4) – Benoît Sagot (2023-2024)