Inteligența Artificială De La Microsoft Poate Simula Vocea Oricui Cu Doar Trei Secunde De înregistrare Audio

Cercetătorii Microsoft au prezentat săptămâna trecută un nou program care poate simula vocea oricărei persoane dacă primește o înregistrare audio de trei secunde.

Numit VALL-E, aceasta poate sintetiza înregistrări audio cu o persoană care poate spune orice și o poate face într-o formă care încearcă păstrarea tonului emoțional al vorbitorului.

Creatorii săi susțin că VALL-E poate fi folosit pentru aplicații text-to-speech de calitate, softuri de editare audio a unui discurs și schimbarea acestuia conform unui script, făcându-i să spună lucruri pe care de fapt nu le-au spus.

Microsoft numește VALL-E drept un „model de codec de limbaj neuronal”, fiind construit pe o tehnologie numită EnCodec, anunțată de Facebook în octombrie 2022.

Cum funcționează

VALL-E generează audio din texte și modele acustice. Practic, acesta analizează cum sună o persoană și sparge informația în componente separate. Ulterior, folosește datele pentru a potrivi ce „știe” despre acea voce cu alte fraze.

Microsoft a antrenat VALL-E cu ajutorul unei librării audio realizată de Facebook, numită LibriLight. Aceasta conține 60.000 de ore de limbaj în engleză de la 7.000 de vorbitori. Cele mai multe sunt strânse din LibriVox, o librărie de cărți audio gratuite.

Conform sursei citate, în anumite cazuri o serie de rezultate VALL-E par generate pe calculator, dar altele pot fi potențial confundate cu limbajul uman.

Din cauza faptului că VALL-E are potențialul de înșelăciune, Microsoft nu a prezentat și codul-sursă al experimentului.

Vezi şi ce este inteligenţa artificială!

Urmărește-ne pe Google News

Inteligența artificială de la Microsoft poate simula vocea oricui cu doar trei secunde de înregistrare audio

Cum funcționează