Noul AI de la Microsoft poate simula vocea oricui dintr-o mostră de 3 secunde!

Author: Bogdan Frațilă
Actualizat: 22 ian 2023, 15:59

Aplicația numită VALL-E poate fi utilizată pentru a sintetiza o vorbire personalizată de înaltă calitate cu doar o înregistrare de înregistrare de trei secunde!

Sursa: PixaBay

Aplicația numită VALL-E poate fi utilizată pentru a sintetiza o vorbire personalizată de înaltă calitate cu doar o înregistrare de înregistrare de trei secunde!

Cercetătorii de la Microsoft au anunțat o nouă aplicație care folosește inteligența artificială pentru a imita vocea unei persoane cu doar câteva secunde de antrenament.

Modelul vocii poate fi apoi utilizat pentru aplicații text-to-speech.
Aplicația numită VALL-E poate fi utilizată pentru a sintetiza o vorbire personalizată de înaltă calitate cu doar o înregistrare de înregistrare de trei secunde a unui vorbitor ca îndemn acustic, au scris cercetătorii într-un articol publicat online pe arXiv, un serviciu de distribuție gratuită și o arhivă cu acces liber pentru articole științifice.
În prezent, există programe care pot tăia și lipi discursul într-un flux audio, iar acest discurs este convertit în vocea unui vorbitor din textul tastat.
Cu toate acestea, programul trebuie să fie antrenat pentru a emula vocea unei persoane, ceea ce poate dura o oră sau mai mult.

"Super impresionant"

VALL-E este o îmbunătățire notabilă față de sistemele anterioare de ultimă generație, cum ar fi YourTTS, lansat la începutul anului 2022, a declarat Giacomo Miceli, un informatician și creatorul unui site web cu o discuție nesfârșită generată de inteligența artificială, care prezintă discursul sintetic al lui Werner Herzog și Slavoj Žižek.


"Ceea ce este interesant la VALL-E nu este doar faptul că are nevoie de doar trei secunde de audio pentru a clona o voce, ci și cât de aproape poate potrivi acea voce, timbrul emoțional și orice zgomot de fond", a declarat Miceli pentru TechNewsWorld. Ritu Jyoti, vicepreședinte de grup pentru AI și automatizare la IDC, o companie globală de cercetare a pieței, a numit VALL-E "semnificativ și super impresionant".

Emularea emoțiilor, pusă sub semnul întrebării

Spre deosebire de OpenAI, producătorul ChatGPT, Microsoft nu a deschis VALL-E publicului, astfel încât rămân întrebări cu privire la performanța sa. De exemplu, există factori care ar putea cauza degradarea vorbirii produse de aplicație?
"Cu cât este mai lung fragmentul audio generat, cu atât sunt mai mari șansele ca un om să audă lucruri care sună puțin ciudat", a observat Miceli. "Cuvintele pot fi neclare, ratate sau dublate în sinteza vocală."
"De asemenea, este posibil ca trecerea de la un registru emoțional la altul să sune nefiresc", a adăugat el.
Capacitatea aplicației de a emula emoțiile unui vorbitor are, de asemenea, sceptici. "Va fi interesant de văzut cât de robustă este această capacitate", a declarat Mark N. Vena, președinte și analist principal la SmartTech Research din San Jose, California.
"Faptul că ei susțin că poate face acest lucru cu doar câteva secunde de audio este greu de crezut", a continuat el, "având în vedere limitările actuale ale algoritmilor de inteligență artificială, care necesită mostre de voce mult mai lungi".

Preocupări de ordin etic

Experții văd aplicații benefice pentru VALL-E, dar și unele mai puțin benefice. Jyoti a citat editarea discursului și înlocuirea actorilor vocali. Miceli a remarcat că tehnologia ar putea fi folosită pentru a crea instrumente de editare pentru podcasteri, pentru a personaliza vocea difuzoarelor inteligente, precum și pentru a fi încorporată în sistemele de mesagerie și în camerele de chat, în jocurile video și chiar în sistemele de navigație.
"Cealaltă față a monedei este că un utilizator rău intenționat ar putea clona vocea, de exemplu, a unui politician și i-ar putea face să spună lucruri care sună absurd sau incendiar sau, în general, să răspândească informații false sau propagandă", a adăugat Miceli. Vena vede un potențial enorm de abuz în această tehnologie, dacă aceasta este atât de bună pe cât susține Microsoft. "La nivelul serviciilor financiare și al securității, nu este greu de imaginat cazuri de utilizare de către actori neaveniți care ar putea face lucruri cu adevărat dăunătoare", a spus el.
Jyoti, de asemenea, vede preocupări etice în jurul VALL-E. "Pe măsură ce tehnologia avansează, vocile generate de VALL-E și de tehnologii similare vor deveni mai convingătoare", a explicat ea. "Acest lucru ar deschide ușa către apeluri spam realiste care să reproducă vocile unor persoane reale pe care o potențială victimă le cunoaște."

Realizarea unor investiții inteligente

În ultimele săptămâni, Microsoft a fost pe prima pagină a ziarelor despre IA. Este de așteptat ca anul acesta să încorporeze tehnologia ChatGPT în motorul său de căutare Bing și, posibil, în aplicațiile sale Office. De asemenea, se pare că plănuiește să investească 10 milioane de dolari în OpenAI- și acum, VALL-E.
"Cred că fac o mulțime de investiții inteligente", a declarat Bob O'Donnell, fondator și analist șef al Technalysis Research, o firmă de consultanță și cercetare a pieței de tehnologie din Foster City, California.
"S-au urcat în vagonul OpenAI cu mai mulți ani în urmă, așa că se află în spatele scenei în acest sens de ceva vreme. Acum iese la iveală în mare", a declarat O'Donnell.

Care sunt grupele Cupei Mondiale din Qatar 2022. Programul competițional și loturile complete

Citește și: Smartphone, TV, PC, Inteligenta artificiala- cum vor arata in 2023?

Citește și: Cercetătorii armează modelele de învățare automată cu Ransomware

Citește și: Industria 4.0: Un institut caută riscuri de criminalitate cibernetică!

 


Nona pare interesată de un date cu Ionuț: „Da, mi-aș dori!”. Concurenta urmează să decidă ce va face în această privință

Nona este interesată de Patrick, dar, atunci când a intrat în „Casa Iubirii”, era îndreptată spre Ionuț. Acum, aceasta are șansa de a avea un date cu Ionuț și mâine, 2 februarie, urmează să decidă dacă va accepta sau nu.

Cookies