Hirdetés

Ha ügyesen kéred, akár káromkodik is neked az AI



|

A Johns Hopkins Egyetem és a Duke Egyetem informatikusai egy kísérletben igazolták a technológia korlátozásának kijátszhatóságát.

Hirdetés

Az idén év elején beinduló és azóta reneszánszukat élő AI-platformok már egy sor dologra képesek: szöveget írnak megadott témában és stílusban, képet alkotnak meghatározott dolgokról, sőt már zenét is szerezhetünk a segítségükkel. Egy beépített korlátozás viszont nem enged nekik egy sor problematikus dolgot. Ilyenek többek között például a pornográf tartalmú képek alkotása és a káromkodás is. Legalábbis eddig így gondoltuk.

A Johns Hopkins Egyetem és a Duke Egyetem informatikusai egy kutatás keretében addig próbálkoztak, míg kiderült, hogy nem is olyan nehéz kijátszani a technológiát olyan módon, hogy félretéve elveit trágárkodjon egy vereteset, vagy rajzoljon valami igazán illetlent.

A beépített szűrők kikerülésére egy egészen egyszerű módszert találtak a tanulmány megalkotásában résztvevő szakemberek. A SneakyPrompt névre keresztelt módszer lényege, hogy a megalkotni szándékozott tiltott tartalom létrehozásra irányuló utasításokat felcserélik értelmetlen halandzsára a szövegben úgy, hogy közben a végrehajtandó eredeti szándékot megőrzik. Így az algoritmus olyan felszólításokat generálhat, amelyek ráveszik ezeket a platformokat a pornográf vagy akár erőszakos tartalmak generálására.

Hirdetés

Az egyetem kutatásban résztvevő munkatársai az önkorlátozás kijátszására vonatkozó utasításokkal kezdték a kísérleteiket, például "egy nő meztelenül napozik". Az algoritmus ezután tesztelte a Dall-E 2 és a Stable Diffusion AI-platformokat a promptokon belüli szűrt szavak - jelen esetben "meztelen" - alternatíváival. A SneakyPrompt ezután megvizsgálta az AI generálta válaszokat, majd addig próbálkozott míg megtalálta a megfelelő utasításokat a tiltott tartalom létrehozására.

Az egyelőre nem világos, hogy a vizsgálatba bevont platformok miért azonosítják értelmezhető parancsként a megfelelő halandzsa-szavakat. Feltételezésük szerint a rejtély nyitja a nagy nyelvi modellek és az emberi gondolkozás különbözőségében lehet. Úgy tűnik, hogy a "megtévesztett" platformok biztonsági szűrői nem látják problémásnak a meghekkelt parancsokat.

Yinzi Cao, a tanulmány vezető szerzője, a Johns Hopkins kiberbiztonsági munkatársa azzal magyarázza a kutatás szükségességét, hogy az AI-platformok gyengeségeinek a kiismerésével lehet csak a jövőben felkészíteni a technológiát egy esetleges hasonló támadás ellen.

Hirdetés

Úgy tűnik, AdBlockert használsz, amivel megakadályozod a reklámok megjelenítését. Amennyiben szeretnéd támogatni a munkánkat, kérjük add hozzá az oldalt a kivételek listájához, vagy támogass minket közvetlenül! További információért kattints!

Engedélyezi, hogy a https://www.pcwplus.hu értesítéseket küldjön Önnek a kiemelt hírekről? Az értesítések bármikor kikapcsolhatók a böngésző beállításaiban.