Hirdetés

Bemutatkozott az OpenAI lenyűgöző és rémisztő videógenerátora, a Sora



|

Az OpenAI már nem csak szövegeket és képet, de videókat is gyárt nekünk, méghozzá nem is akármilyen minőségben. Még nem tudni, mennyi veszélyt rejt ez.

Hirdetés

Néhány évvel ezelőtt a legtöbb ember valószínűleg csak értetlenül pislogott volna az OpenAI nevének hallatán, manapság viszont ez az egyik legnagyobb figyelmet élvező szereplő a tech világban, köszönhetően a mesterséges intelligenciára épülő ChatGPT chatbot és a DALL-E képgenerátor zajos sikerének, amelyek valóságos AI-őrületet robbantottak ki.

A szövegek és az állóképek meghódítása után logikus volt, hogy a Microsoft több mint 10 milliárd dolláros befektetését élvező cég a videókra is kiterjeszti a tevékenységét, most pedig be is nevezett a műfajba egy új technológiával, amely nem kevésbé lenyűgöző, mint az elődei.

Az OpenAI weboldalán beharangozott Sora a ChatGPT-hez és a DALL-E-hez hasonlóan ugyancsak szöveges utasítások segítségével hoz létre legfeljebb egy perc hosszúságú videós anyagokat, a felhasználó által kínált témákban.

"A Sora képes összetett jeleneteket generálni több szereplővel és meghatározott típusú mozgásokkal, valamint a téma és a háttér pontos részleteinek megalkotásával. A modell nemcsak azt érti meg, hogy a felhasználó mit kért a parancsban, hanem azt is, hogy ezek a dolgok hogyan léteznek a fizikai világban."

- írja az új text-to-video modellről a fejlesztő, több látványos felvételt is mellékelve a hivatalos bejelentésben.

Hirdetés

A közlemény alapján a nyelv mély megértésével a Sora képes pontosan feldolgozni az utasításokat, akár élénk érzelmeket kifejező karaktereket generálva. A technológia továbbá egyetlen videón belül több felvételt is létre tud hozni, amelyek szorosan követik a korábban előállított karaktereket és a vizuális stílust.

Pillanatkép a Sora egyik videójából
Pillanatkép a Sora egyik videójából

Az OpenAI ugyanakkor elismeri, hogy az új üdvöskének vannak gyengeségei is. Így például nehezen szimulálja egy összetettebb jelenet fizikáját, és nem érti az ok-okozati összefüggések konkrét eseteit sem. Emiatt előfordulhat, hogy mondjuk egy szereplő beleharap egy sütibe, a következő jelenetben pedig már nem biztos, hogy még mindig látható lesz rajta a harapás nyoma. A hollywoodi rendezők által is gyakran elkövetett bakin túl a Sora a térbeli utasításokat is nehézkesen kezeli, ezért összekeverheti a jobb és bal oldalt, valamint az időben lezajló események leírása is zavarba hozhatja, mondjuk ha egy adott kamerapályát kell követnie.

Mindezek ellenére a minták alapján a Sora így is döbbenetesen élethű videókat alkot, ami egyben végtelenül ijesztő is, hiszen egy ilyen technológia számos lehetőséget biztosít a visszaélésekre, legyen szó hírhamisításról, tiltott szexuális tartalmak generálásáról vagy ismert emberek képmásával elkövetett csalásokról. Éppen ezért az OpenAI eleinte szakértők bevonásával, szűk körben teszteli a technológiát, és biztonsági intézkedéseket is beépít. Ennek jegyében eleve szűrésre kerülnek a szöveges parancsok, hogy a Sorával ne lehessen a szabályokba ütköző tartalmakat generálni, valamint egy eszközt is létrehoznak, ami felismeri a modellel létrehozott videókat.

Végezetül érdemes megjegyezni, hogy az OpenAI ezúttal sincs egyedül a piacon, hiszen korábban olyan szereplők mutattak be saját text-to-video modelleket, mint a Meta, a Google, a Pika vagy a Runway, melyek közül az utóbbiak már a nagyközönség számára is használhatók.

Hirdetés

Úgy tűnik, AdBlockert használsz, amivel megakadályozod a reklámok megjelenítését. Amennyiben szeretnéd támogatni a munkánkat, kérjük add hozzá az oldalt a kivételek listájához, vagy támogass minket közvetlenül! További információért kattints!

Engedélyezi, hogy a https://www.pcwplus.hu értesítéseket küldjön Önnek a kiemelt hírekről? Az értesítések bármikor kikapcsolhatók a böngésző beállításaiban.