Umjetna inteligencija, u 15 sekundi će replicirati ljudski glas na bilo kojem jeziku

OpenAI je predstavio novu platformu pod nazivom Voice Engine, koja obećava revoluciju u polju sinteze govora. Ovaj alat može generirati sintetički glas iz kratkog audio uzorka osobe od samo 15 sekundi, nudeći mogućnost čitanja teksta na naredbu na izvornom jeziku uzorka ili na drugim jezicima. S ciljem evaluacije pozitivnih aplikacija i potrebnih sigurnosnih mjera, OpenAI je pokrenuo ograničeni pristup ovoj tehnologiji, surađujući s nekoliko tvrtki u različitim sektorima.

Partneri koji su već imali priliku isprobati Voice Engine uključuju Age of Learning, tvrtku aktivnu u sektoru tehnološkog obrazovanja; HeyGen, platforma za vizualno pripovijedanje; Dimagi, kreator softvera za prvi zdravstveni sektor; Livox, programer AI komunikacijskih aplikacija; i Lifespan Health System. Ova suradnja nam je omogućila da istražimo praktične primjene tehnologije, kao što je stvaranje unaprijed skriptiranih govornih sadržaja i personaliziranih odgovora za studente u stvarnom vremenu, napisanih putem GPT-4.

Jeff Harris, član OpenAI-jevog proizvodnog tima za Voice Engine, otkrio je da je razvoj platforme započeo krajem 2022. Tehnologija koristi licencirane i javno dostupne podatke za pokretanje unaprijed izgrađenih glasova API-ja za pretvaranje teksta u govor i značajku Read Aloud za ChatGPT. Međutim, pristup Voice Engineu bit će ograničen na desetak programera, što naglašava OpenAI-jev oprez pri uvođenju ove tehnologije.

Područje generiranja teksta u zvuk, posebno glasovno kloniranje temeljeno na umjetnoj inteligenciji, doživljava brzu evoluciju, a tvrtke poput Podcastlea i ElevenLabsa ističu se svojim inovacijama. Ovo rastuće zanimanje, međutim, sukobljava se s etičkim i sigurnosnim problemima koji se odnose na nepravilnu upotrebu tehnologije, kao što je pokazala nedavna zabrana automatiziranih poziva od strane Federalne komisije za komunikacije SAD-a koji koriste klonirane AI glasove bez pristanka.

OpenAI je od svojih partnera zahtijevao da se pridržavaju strogih pravila korištenja, koja uključuju zabranu lažnog predstavljanja pojedinaca ili organizacija bez njihovog pristanka, obvezu dobivanja izričitog i informiranog pristanka izvornog govornika i obvezu da se korisnicima ne dopusti stvaranje vlastitih unose. Nadalje, svi generirani audioisječci nosit će vodeni žig kako bi se olakšala sljedivost, a korištenje sintetičkog glasa pažljivo će se nadzirati. Kao odgovor na potencijalne rizike, OpenAI predlaže različite preventivne mjere, poput eliminacije glasovne autentifikacije za pristup bankovnim računima, politike za zaštitu upotrebe ljudskih glasova u umjetnoj inteligenciji, pojačane napore u obrazovanju za duboko lažiranje i razvoj sustava za praćenje sadržaja umjetne inteligencije.

Business Technology Day – Datakom @ Star FM (02.05.2024.)

Stellar Blade nastavit će se prema odluci igrača

NASA emitira video mačke u svemiru brzinom od 25 Mbit/s

Diablo IV, što je novo u sezoni 4

Prototip Polestar 5 puni se od 10 do 80% u 10 minuta

Spotify, tekstovi pjesama postaju plaćeni

Nintendo Switch 2 će moći koristiti ranije objavljene igre i kontrolere

Otvara se poziv za pokretanje Tecna 2024