https://frosthead.com

Les ordinateurs peuvent-ils déchiffrer une langue vieille de 5 000 ans?

La civilisation de l'Indus, qui a prospéré pendant une grande partie du troisième millénaire avant notre ère, était la société la plus vaste de son temps. À son apogée, il couvrait une superficie de plus d'un demi million de kilomètres carrés centrée sur ce qui est aujourd'hui la frontière indo-pakistanaise. Des vestiges de l'Indus ont été découverts au nord de l'Himalaya et au sud de Mumbai. C'était la culture urbaine la plus ancienne connue du sous-continent et elle se vantait de deux grandes villes, l'une à Harappa et l'autre à Mohenjo-daro. Pourtant, malgré sa taille et sa longévité, et malgré près d’un siècle d’investigations archéologiques, l’Indus a gardé beaucoup de mystère.

Le peu que nous savons provient de fouilles archéologiques qui ont débuté dans les années 1920 et se poursuivent encore de nos jours. Au fil des décennies, les archéologues ont découvert de nombreux artefacts, notamment des cachets, des amulettes et de petites tablettes. Beaucoup de ces artefacts portent ce qui semble être des spécimens d'écriture - des figures gravées ressemblant, entre autres, à des fers à cheval ailés, des roues à rayons et des poissons dressés. La signification exacte de ces symboles reste cependant l’une des énigmes non résolues les plus célèbres de l’érudition des civilisations anciennes.

Il y a eu d'autres codes difficiles à déchiffrer dans l'histoire. Les égyptologues ont eu une chance avec la découverte de la célèbre pierre de Rosette en 1799, qui contenait un texte en égyptien et en grec. L’étude des hiéroglyphes mayas s’allongea jusqu’à ce qu’un linguiste russe, Yury Knorozov, utilise intelligemment le maya contemporain parlé dans les années 1950. Mais il n’existe pas de pierre de Rosetta de l’Indus et les érudits ne savent pas quelle langue, le cas échéant, pourrait être issue de celle parlée par le peuple de l’Indus.

Il y a environ 22 ans, à Hyderabad, en Inde, Rajesh Rao, étudiant en huitième année, tourna la page d'un manuel d'histoire et découvrit pour la première fois cette civilisation fascinante et son écriture mystérieuse. Dans les années qui ont suivi, sa scolarité et sa profession l'ont amené dans une direction différente - il a fini par poursuivre des études en informatique, qu'il enseigne aujourd'hui à l'Université de Washington à Seattle - mais il a surveillé attentivement les bourses d'études de l'Indus, en gardant un œil sur les dizaines d'échecs. tentatives de donner un sens au script. Alors même qu’il étudiait l’intelligence artificielle et la robotique, Rao avait rassemblé une trentaine de livres et de monographies sur le script de l’Indus. Sur une étagère à proximité, il a également conservé le manuel d'histoire chéri de huitième année qui l'a présenté à l'Indus.

«C'était incroyable de voir le nombre d'idées différentes suggérées par les gens», dit-il. Certains érudits ont prétendu que l'écriture était une sorte d'écriture sumérienne; d'autres l'ont situé dans la famille dravidienne; d'autres encore pensaient que cela était lié à une langue de l'île de Pâques. Rao en est venu à comprendre que c'était «probablement l'un des problèmes les plus difficiles en termes d'histoire ancienne».

Comme tentative après tentative de déchiffrer le script a échoué, certains experts ont commencé à perdre espoir que celui-ci puisse être décodé. En 2004, trois spécialistes ont affirmé dans un article controversé que les symboles de l'Indus n'avaient aucun contenu linguistique. Au lieu de cela, les symboles étaient peut-être un peu plus que des pictogrammes représentant des personnalités politiques ou religieuses. Les auteurs sont allés jusqu'à suggérer que l'Indus n'était pas une civilisation alphabète du tout. Pour certains sur le terrain, la quête de la langue derrière ces eaux-fortes de l'Indus a commencé à ressembler à un exercice futile.

Quelques années plus tard, Rao est entré dans la mêlée. Jusqu'alors, les personnes qui étudiaient le scénario étaient des archéologues, des historiens, des linguistes ou des cryptologues. Mais Rao a décidé d'exploiter les secrets du script de l'Indus en utilisant l'outil qu'il connaissait le mieux, l'informatique.

Fasciné par la civilisation de l'Indus depuis la huitième année, Rajesh Rao utilise l'informatique et un concept appelé "entropie conditionnelle" pour aider à décoder le script de l'Indus. (Gracieuseté de David Zax) Au fil des décennies, les archéologues ont découvert de nombreux artefacts de la civilisation de l'Indus, notamment des cachets, des amulettes et de petites tablettes. (Robert Harding / Images du monde Robert Harding / Corbis) Rao et ses collaborateurs ont publié leurs conclusions dans la revue Science en mai. Ils n'ont pas déchiffré la langue mais leurs découvertes ont permis de mieux la comprendre. (Robert Harding / Images du monde Robert Harding / Corbis) Rao et ses collègues étudient maintenant des chaînes de caractères plus longues que celles analysées dans l'article de Science . La recherche de modèles aiderait à son tour à déterminer les familles de langues auxquelles le script pourrait appartenir. (Gracieuseté de David Zax)

Un jour d'été à Seattle, Rao m'a accueilli dans son bureau pour me montrer comment lui et ses collègues avaient abordé le problème. Il a établi une collection de répliques d’empreintes de phoques en argile que des archéologues ont trouvées sur des sites de l’Indus. Ils sont petits - comme des petits chocolats carrés - et la plupart d'entre eux présentent une image d'un animal sous une série de symboles de l'Indus. La plupart des échantillons de l'écriture de l'Indus sont des miniatures comme celles-ci, ne comportant que quelques caractères; aucun grand monolith n'a été découvert. Les savants sont incertains sur la fonction des petits phoques, m'a dit Rao, mais une théorie est qu'ils auraient peut-être été utilisés pour certifier la qualité des biens échangés. Un autre suggère que les phoques auraient pu être un moyen de s'assurer que les commerçants payaient des taxes à l'entrée ou à la sortie d'une ville - de nombreux phoques ont été trouvés parmi les ruines des postes de garde, qui auraient peut-être fonctionné comme des anciens péages.

Rao et ses collègues ne cherchaient pas à faire des miracles - ils savaient qu'ils n'avaient pas assez d'informations pour déchiffrer l'ancien script - mais ils ont émis l'hypothèse qu'en utilisant des méthodes de calcul, ils pourraient au moins commencer à établir quel type d'écriture pour l'Indus Le script était: a-t-il encodé la langue, ou pas? Ils ont fait cela en utilisant un concept appelé «entropie conditionnelle».

Malgré son nom imposant, l'entropie conditionnelle est un concept assez simple: il s'agit d'une mesure de la quantité d'aléatoire dans une séquence. Considérons notre alphabet. Si vous preniez des carreaux de Scrabble et les jetiez en l'air, vous pourriez retrouver une lettre ancienne après l'autre. Mais dans les mots anglais réels, certaines lettres sont plus susceptibles de se retrouver après les autres. Un q en anglais est presque toujours suivi d'un u . Un t peut être suivi d'un r ou e, mais est moins susceptible d'être suivi d'un n ou d'un b .

Rao et ses collaborateurs - un groupe international comprenant des informaticiens, des astrophysiciens et un mathématicien - ont utilisé un programme informatique pour mesurer l'entropie conditionnelle du script Indus. Ils ont ensuite mesuré l’entropie conditionnelle d’autres types de systèmes - langages naturels (sumérien, tamoul, sanscrit et anglais), un langage artificiel (le langage de programmation informatique Fortran) et des systèmes non linguistiques (séquences d’ADN humain, séquences de protéines bactériennes, etc.). deux ensembles de données artificiels représentant des extrêmes hauts et bas d'entropie conditionnelle). Lorsqu'ils ont comparé la quantité d'aléatoire dans le script de l'Indus à celle des autres systèmes, ils ont constaté que cela ressemblait le plus aux taux trouvés dans les langues naturelles. Ils ont publié leurs conclusions en mai dans la revue Science .

Si cela ressemble à une langue et agit comme une langue, alors c'est probablement une langue, suggère leur article. Les résultats ne déchiffrent pas le script, bien sûr, mais ils nous aident à mieux le comprendre et ont rassuré les archéologues qui avaient travaillé sur l'hypothèse que le script de l'Indus codait le langage.

Après avoir publié le journal, Rao a eu une surprise. Il s'avère que la famille de langues à laquelle appartient le script est une question sensible: en raison de l'âge et de la signification de la civilisation de l'Indus, de nombreux groupes indiens contemporains voudraient le revendiquer comme un ancêtre direct. Par exemple, les Indiens de langue tamoule du sud préféreraient apprendre que l'écriture de l'Indus est une sorte de proto-dravidien, puisque le tamoul est issu du proto-dravidien. Les locuteurs de l'hindi du nord préféreraient qu'il s'agisse d'une ancienne forme de sanscrit, un ancêtre de l'hindi. L'article de Rao n'indique pas à quelle famille de langues appartient le script, bien qu'il note que l'entropie conditionnelle est similaire à Old Tamil, ce qui amène certains critiques à "nous accuser sommairement d'être des nationalistes dravidiens", dit Rao. "La férocité des accusations et des attaques était complètement inattendue."

Rao est parfois soulagé de retourner dans le monde moins férocement disputé des neurosciences et de la robotique. Mais l'appel du script de l'Indus reste séduisant et «ce qui était autrefois un passe-temps monopolise plus d'un tiers de mon temps», dit-il. Rao et ses collègues étudient maintenant des chaînes de caractères plus longues que celles analysées dans l'article de Science . «S'il y a des modèles, dit Rao, nous pourrions établir des règles grammaticales. Cela créerait à son tour des contraintes sur les types de familles de langues auxquelles le script pourrait appartenir.

Il espère que ses conclusions futures parleront d'elles-mêmes, suscitant moins de rancoeur chez ses adversaires, enracinant une région de l'Inde par rapport à une autre. Pour sa part, lorsque Rao explique ce que le script de l'Indus signifie pour lui, il a tendance à parler de l'Inde dans son ensemble. «Le patrimoine de l'Inde s'enrichirait considérablement si nous pouvions comprendre la civilisation de l'Indus», dit-il. Rao et ses collaborateurs y travaillent, une ligne de code source à la fois.

Les ordinateurs peuvent-ils déchiffrer une langue vieille de 5 000 ans?