Cercetătorii Microsoft au prezentat săptămâna trecută un nou program care poate simula vocea oricărei persoane dacă primește o înregistrare audio de trei secunde.
Numit VALL-E, aceasta poate sintetiza înregistrări audio cu o persoană care poate spune orice și o poate face într-o formă care încearcă păstrarea tonului emoțional al vorbitorului.
Creatorii săi susțin că VALL-E poate fi folosit pentru aplicații text-to-speech de calitate, softuri de editare audio a unui discurs și schimbarea acestuia conform unui script, făcându-i să spună lucruri pe care de fapt nu le-au spus.
Microsoft numește VALL-E drept un „model de codec de limbaj neuronal”, fiind construit pe o tehnologie numită EnCodec, anunțată de Facebook în octombrie 2022.
Cum funcționează
VALL-E generează audio din texte și modele acustice. Practic, acesta analizează cum sună o persoană și sparge informația în componente separate. Ulterior, folosește datele pentru a potrivi ce „știe” despre acea voce cu alte fraze.
Microsoft a antrenat VALL-E cu ajutorul unei librării audio realizată de Facebook, numită LibriLight. Aceasta conține 60.000 de ore de limbaj în engleză de la 7.000 de vorbitori. Cele mai multe sunt strânse din LibriVox, o librărie de cărți audio gratuite.
Conform sursei citate, în anumite cazuri o serie de rezultate VALL-E par generate pe calculator, dar altele pot fi potențial confundate cu limbajul uman.
Din cauza faptului că VALL-E are potențialul de înșelăciune, Microsoft nu a prezentat și codul-sursă al experimentului.
Vezi şi ce este inteligenţa artificială!