NOUA INTELIGENȚĂ INTELIGENTĂ TEXT-LA-VORBIRE GOOGLE ESTE ATÂT DE BUNĂ ÎNCÂT PARIEZ CĂ NU O POȚI SPUNE DE LA UN OM REAL

Poți să faci diferența dintre vorbirea computerizată generată de AI și o ființă umană reală și vie? Poate că întotdeauna ai crezut că poți. Poate că îți place Alexa și Siri, dar crezi că nu i-ai confunda niciodată pe una dintre ele cu o femeie reală.

Lucrurile sunt pe cale să devină mult mai interesante. Inginerii Google au lucrat din greu la crearea unui sistem text-to-speech numit Tacotron 2 . Potrivit unui hârtie au publicat luna aceasta, sistemul creează mai întâi o spectrogramă a textului, o reprezentare vizuală a modului în care ar trebui să sune vorbirea. Această imagine este introdusă prin algoritmul WaveNet existent de la Google, care folosește imaginea pentru a produce o vorbire umană extrem de naturală.

juan pablo di pace viața personală

Folosind această metodă, cercetătorii raportează: „Modelul nostru atinge un scor mediu de opinie (MOS) de 4,53 comparabil cu un MOS de 4,58 pentru vorbirea înregistrată profesional”. (Un scor mediu de opinie este un termen de telecomunicații care măsoară cât de adevărat sună ceva.)

După cum demonstrează eșantioanele audio ale Google, Tacotron 2 poate detecta din context diferența dintre substantivul „deșert” și verbul „deșert”, precum și substantivul „prezent” și verbul „prezent” și își poate modifica pronunția în consecință. Poate pune accent pe cuvinte cu majuscule și poate aplica flexiunea corectă atunci când puneți o întrebare, mai degrabă decât să faceți o afirmație.

Și poate genera text care sună atât de similar cu vorbirea umană încât este dificil sau imposibil să se cunoască diferența. Dacă doriți să vedeți cât de greu este, accesați Google pagină de probe audio și derulați în jos până la ultimul set de probe, intitulat „Tacotron 2 sau uman?” Acolo veți găsi Tacotron 2 și o persoană reală, care spune fiecare propoziții precum: „Fata a făcut un videoclip despre rujul Star Wars”.

ALERTĂ SPOILER: Pentru a vă testa, ascultați mostrele și ghiciți care este înainte de a citi restul acestei coloane.

Deci, care eșantioane sunt text-to-speech și care sunt o adevărată voce umană? Inginerii Google nu spun, dar au lăsat un indiciu foarte mare. Fiecare dintre exemplele de fișiere .wav are un nume de fișier care conține fie termenul „gen”, fie „gt”. Pe baza lucrării, este foarte probabil ca „gen” să indice vorbirea generată de Tacotron 2, iar „gt” să fie vorbirea umană reală. („GT” probabil înseamnă „adevărul la sol”, un termen de învățare automată care înseamnă practic „afacerea reală”).

Presupunând că acest lucru este corect, iată răspunsurile la test: