Hirdetés

Néhány szóból készít elképesztő képeket ez a mesterséges intelligencia

|

A DALL-E 2 mesterséges intelligencia gyorsabban, pontosabban dolgozik, és nagyobb képeket rajzol, mint elődje, ehhez pedig csak néhány szóra van szüksége.

Hirdetés

A mesterséges intelligenciát egy ideje már nem csak arra lehet használni, hogy felismertessük vele, mi szerepel egy képen, hanem akár soha nem létező dolgokat is rendkívül hihető módon rajzoltathatunk meg egy-egy, gépi tanulással létrejött programmal. Míg az Nvidia segítségével készülő GauGAN2 alapvetően realisztikus tájképekre specializálódott, egy másik projekt pedig hihető emberi arcokat gyárt, addig az OpenAI kísérlete, a DALL-E második generációja tényleg majdnem mindent le tud rajzolni.

A szóban forgó MI rendkívül érdekes módszerrel dolgozik, a kiindulási pontot egy teljesen zajos kép adja. Ezt addig tisztítgatja a zajtól és rendezgeti a DALL-E 2 (ami nevét Salvador Dalí neve és a WALL-E ötvözéséből kapta), amíg meg nem jelennek olyan minták, amiket korábbi tanulmányai alapján felismer, és a program szerint megfelel a szavakból álló utasításnak. Ez a modell egyébként kisebb és hatékonyabb az MI-t tervező mérnökök szerint, mint a DALL-E korábbi kiadása, így azt is megengedhetik az üzemeltetők, hogy több megoldást is készítsen az MI ugyanarra a feladatra, amik közül aztán a felhasználó választhatja ki, melyik tetszik neki a legjobban.

Hirdetés

Az olyan váratlan utasítások megvalósításán túl, mint "egy tengeri vidra a Leány gyöngy fülbevalóval című festmény stílusában", vagy "mesterséges intelligenciát az 1990-es évek technikájával kutató plüssmackók a víz alatt" további trükkökre is képes az algoritmus. A DALL-E helyettesíteni tudja az adott kép egy kiválasztott részét új részlettel, szintén szöveges utasítások alapján.

A fejlesztők által adott példa szerint például, ha egy fotónkon mosatlan edények maradtak egy asztalon, azt a mesterséges intelligencia képes eltüntetni, vagy mondjuk egy virágokkal teli vázára cserélni. Mindeközben ráadásul figyelembe veszi a jelenetben a fényeket, illetve a különböző anyagokat és a vizuális stílust is, ha nem egy realisztikus képről van szó. Végül, a harmadik leprogramozott módban egy betöltött képből készít több variációt a DALL-E 2.

Az OpenAI-nál dolgozó alkotók egyébként tisztában vannak azzal is, hogyan lehetne visszaélni egy ilyen technológiával, ezért különböző korlátozásokat építettek a rendszerbe. Egyfelől a programot egyelőre nem adták ki, csak náluk futtatható zárt környezetben, a felhasználókat pedig ők maguk hívják meg, a jelentkezők szűrését követően. Ezen felül DALL-E-t nem tanították meg erőszakos, felnőtt, vagy épp politikai tartalmak, vagy mondjuk ismert emberek arcának realisztikus újraalkotására sem.

Emellett bizonyos szavakat az MI-nek adható utasítások közül is kitiltottak, illetve az eredményeket egyelőre emberi moderátorok is szűrik, nehogy valamilyen ártalmas kép készüljön a program segítségével. Ez persze a jövőben nem maradhat így, de az alkotók számára DALL-E használatának kiterjesztésénél sokkal fontosabb a biztonság. A Mesterséges intelligencia eredményeiről egyébként meggyőződhettek a projektet bemutató, részben interaktív weboldalon.

Komolyabban érdekel az IT? Informatikai, infokommunikációs döntéshozóknak szóló híreinket és elemzéseinket itt találod.

Hirdetés

Úgy tűnik, AdBlockert használsz, amivel megakadályozod a reklámok megjelenítését. Amennyiben szeretnéd támogatni a munkánkat, kérjük add hozzá az oldalt a kivételek listájához, vagy támogass minket közvetlenül! További információért kattints!

Engedélyezi, hogy a https://pcworld.hu értesítéseket küldjön Önnek a kiemelt hírekről? Az értesítések bármikor kikapcsolhatók a böngésző beállításaiban.