Principal Inovați Noua inteligență inteligentă text-la-vorbire Google este atât de bună încât pariez că nu o poți spune de la un om real

Noua inteligență inteligentă text-la-vorbire Google este atât de bună încât pariez că nu o poți spune de la un om real

Horoscopul Tău Pentru Mâine

Poți să faci diferența dintre vorbirea computerizată generată de AI și o ființă umană reală și vie? Poate că întotdeauna ai crezut că poți. Poate că îți place Alexa și Siri, dar crezi că nu i-ai confunda niciodată pe una dintre ele cu o femeie reală.

Lucrurile sunt pe cale să devină mult mai interesante. Inginerii Google au lucrat din greu la crearea unui sistem text-to-speech numit Tacotron 2 . Potrivit unui hârtie au publicat luna aceasta, sistemul creează mai întâi o spectrogramă a textului, o reprezentare vizuală a modului în care ar trebui să sune vorbirea. Această imagine este introdusă prin algoritmul WaveNet existent de la Google, care folosește imaginea pentru a produce o vorbire umană extrem de naturală.

juan pablo di pace viața personală

Folosind această metodă, cercetătorii raportează: „Modelul nostru atinge un scor mediu de opinie (MOS) de 4,53 comparabil cu un MOS de 4,58 pentru vorbirea înregistrată profesional”. (Un scor mediu de opinie este un termen de telecomunicații care măsoară cât de adevărat sună ceva.)

După cum demonstrează eșantioanele audio ale Google, Tacotron 2 poate detecta din context diferența dintre substantivul „deșert” și verbul „deșert”, precum și substantivul „prezent” și verbul „prezent” și își poate modifica pronunția în consecință. Poate pune accent pe cuvinte cu majuscule și poate aplica flexiunea corectă atunci când puneți o întrebare, mai degrabă decât să faceți o afirmație.

Și poate genera text care sună atât de similar cu vorbirea umană încât este dificil sau imposibil să se cunoască diferența. Dacă doriți să vedeți cât de greu este, accesați Google pagină de probe audio și derulați în jos până la ultimul set de probe, intitulat „Tacotron 2 sau uman?” Acolo veți găsi Tacotron 2 și o persoană reală, care spune fiecare propoziții precum: „Fata a făcut un videoclip despre rujul Star Wars”.

ALERTĂ SPOILER: Pentru a vă testa, ascultați mostrele și ghiciți care este înainte de a citi restul acestei coloane.

Deci, care eșantioane sunt text-to-speech și care sunt o adevărată voce umană? Inginerii Google nu spun, dar au lăsat un indiciu foarte mare. Fiecare dintre exemplele de fișiere .wav are un nume de fișier care conține fie termenul „gen”, fie „gt”. Pe baza lucrării, este foarte probabil ca „gen” să indice vorbirea generată de Tacotron 2, iar „gt” să fie vorbirea umană reală. („GT” probabil înseamnă „adevărul la sol”, un termen de învățare automată care înseamnă practic „afacerea reală”).

Presupunând că acest lucru este corect, iată răspunsurile la test:

care este valoarea netă lisa wu

„Fata a făcut un videoclip despre rujul Star Wars.”

Eșantionul 1: Om real

Proba 2: Tacotron 2

„A obținut un doctorat în sociologie la Universitatea Columbia”.

Proba 1: Tacotron 2

Eșantionul 2: Om real

„George Washington a fost primul președinte al Statelor Unite”.

Proba 1: Tacotron 2

Eșantionul 2: Om real

valoarea netă ace frehley 2016

'Sunt prea ocupat pentru romantism.'

Eșantionul 1: Om real

Proba 2: Tacotron 2

Câți ai dat dreptate? Și chiar ai putea face diferența sau a trebuit doar să ghici?