Hirdetés

A Microsoft mesterséges intelligenciája már bárkinek a hangját képes szimulálni



|

A VALL-E nevű technológiának mindössze egy 3 másodperces mintára van szüksége, hogy leutánozza az emberi alanyok hangját.

Hirdetés

A mesterséges intelligencia utóbbi években bekövetkezett rohamos fejlődése sok olyan vitát generált, amelyek korábban csak a sci-fi történetekben és az elméleti fejtegetésekben léteztek, mint például hogy művészetnek tekinthető-e egy algoritmus által generált festmény, vagy hogy milyen veszélyeket hordoznak az emberek arcát szimulálni képes deepfake-videók.

Ha eddig nem lett volna elég riasztó a helyzet, a Microsoft most egy olyan algoritmussal állt elő, amely bárkinek a hangját képes élethűen szimulálni, teljessé téve a képalkotó technológiák által elérhető illúziót.

Hirdetés

A VALL-E-nek nevezett, gépi tanuláson alapuló mesterséges intelligenciának csupán egy 3 másodperces mintára van szüksége ahhoz, hogy egy bevitt szöveg alapján új szavakat "mondjon el" egy hús-vér ember hangján. Az algoritmus még a mintát jellemző audio-környezetre is reagál, vagyis ha az alapanyag egy kissé visszhangzó-recsegő telefonbeszélgetés, akkor a végeredmény is olyan lesz.

A Microsoft szerint a VALL-E-t az emeli ki a hasonló próbálkozások tengeréből, hogy ez a technológia nem a hullámformák puszta manipulálásával szintetizálja a beszédet, hanem a forrás lebontásával diszkrét audio kodek-kódokat generál, és azok segítségével hozza létre a szimulációt. Ennek alapja a Meta által tavaly bemutatott EnCodec-technológia, az algoritmus betanítását pedig a Mark Zuckerberg vezette cég hangkönyvtárára támaszkodva végezték el.

A LibriLight nevű adatbázis 60 ezer órányi angol hanganyagot tartalmaz több mint 7000 beszélőtől, így bőven volt mire építeni a Microsoftnál. Akit érdekel az eredmény, a VALL-E demó weboldalán rengeteg hangmintát találhat, ahol összevethetők az emberi beszélők által elmondottak és a szimulált hangok. A gyűjtemény alapján a redmondiak technológiája helyenként valóban megdöbbentő pontossággal dolgozik, de azért olyan felvételek is akadnak, ahol erősen kilóg az MI-lóláb.

A Microsoft szerint hosszabb távon a VALL-E magas minőségű szövegfelolvasókban és az audio- és videótartalmak utólagos szerkesztésében lehet hasznos, egyelőre azonban nem teszik elérhetővé, mivel tisztában vannak a technológia veszélyeivel. A vállalat azt ígéri, hogy a biztonság növelése érdekében létrehoz egy ellenőrzési modellt, amivel kiszúrhatók a VALL-E segítségével készült hamis anyagok.

 

Hirdetés

Úgy tűnik, AdBlockert használsz, amivel megakadályozod a reklámok megjelenítését. Amennyiben szeretnéd támogatni a munkánkat, kérjük add hozzá az oldalt a kivételek listájához, vagy támogass minket közvetlenül! További információért kattints!

Engedélyezi, hogy a https://www.pcwplus.hu értesítéseket küldjön Önnek a kiemelt hírekről? Az értesítések bármikor kikapcsolhatók a böngésző beállításaiban.