Karen Jacobsen, chanteuse et actrice australienne, a obtenu le poste en 2000, peu après son arrivée à New York. Les producteurs - types d'entreprise - l'ont envoyée dans un studio d'enregistrement pendant trois semaines, où elle passait quatre heures par jour à dire des choses comme «au prochain croisement, tourner à gauche» et «recalculer». Au final, ce n'était pas sa voix. c'était à rude épreuve. «J'ai dit environ 186 fois environ», se souvient Jacobsen. "Ce genre de chose peut vous rendre fou."
Contenu connexe
- De Ptolémée au GPS, bref historique des cartes
Deux ans plus tard, elle a reçu un appel d'un ami. «Karen», lâcha son pote. «J'ai acheté à mon mari un de ces nouveaux GPS, et nous l'avons mis sur la voix australienne. C'est vous! »C'est ainsi que Jacobsen a découvert que sa voix donnait des indications à 400 millions de personnes dans le monde.
Son travail met en lumière l'hybride technologie et technologie qui se mêle aux voix désormais omniprésentes, qui nous indiquent où nous tourner: plus d'un milliard de personnes utilisent Google Maps chaque mois et 80% activent l'option vocale.
Aux débuts de la synthèse vocale - pensez aux sons robotiques d'un Speak & Spell de la fin des années 1970 - un algorithme convertit le texte en un flux monotone. Ensuite, à mesure que les bases de données grandissaient, vous pouviez enregistrer un acteur vocal comme Jacobsen prononçant un corpus de syllabes et de mots, algorithmes que les algorithmes combineraient et modifieraient en fonction de règles de base. Plus récemment, des sociétés de codage de logiciels telles que Nuance, qui conçoit des interfaces de navigation pour les voitures, ont mis au point une troisième approche: appliquer un apprentissage approfondi à la synthèse vocale. Il mélange des mots enregistrés et des extraits synthétisés, en s’appuyant sur l’intelligence artificielle pour rendre la prononciation encore plus humaine. «Ils semblent étrangement naturels», explique Vlad Sejnoha, responsable de la technologie chez Nuance.
Bien sûr, les bizarreries linguistiques restent un défi pour les systèmes vocaux. "Pensez" branche "par rapport à" acheté "ou" lu "par rapport à" lecture ", a déclaré un porte-parole de Google. "Mais j'espère que l'utilisateur pourra toujours deviner ce que nous voulions dire." Maintenant que l'intelligence artificielle enseigne aux systèmes de navigation de voiture à parler plus intelligemment, elle explorera ensuite le monde en ligne et déterminera où vous voulez aller avant même de le faire.
Abonnez-vous au magazine Smithsonian pour seulement 12 $
Cet article est une sélection du numéro de juillet / août du magazine Smithsonian
Acheter