Ha ügyesen kéred, akár káromkodik is neked az AI

Csák Benedek

| 2023 december 22. 13:01

A Johns Hopkins Egyetem és a Duke Egyetem informatikusai egy kísérletben igazolták a technológia korlátozásának kijátszhatóságát.

Hirdetés

Az idén év elején beinduló és azóta reneszánszukat élő AI-platformok már egy sor dologra képesek: szöveget írnak megadott témában és stílusban, képet alkotnak meghatározott dolgokról, sőt már zenét is szerezhetünk a segítségükkel. Egy beépített korlátozás viszont nem enged nekik egy sor problematikus dolgot. Ilyenek többek között például a pornográf tartalmú képek alkotása és a káromkodás is. Legalábbis eddig így gondoltuk.

A Johns Hopkins Egyetem és a Duke Egyetem informatikusai egy kutatás keretében addig próbálkoztak, míg kiderült, hogy nem is olyan nehéz kijátszani a technológiát olyan módon, hogy félretéve elveit trágárkodjon egy vereteset, vagy rajzoljon valami igazán illetlent.

A beépített szűrők kikerülésére egy egészen egyszerű módszert találtak a tanulmány megalkotásában résztvevő szakemberek. A SneakyPrompt névre keresztelt módszer lényege, hogy a megalkotni szándékozott tiltott tartalom létrehozásra irányuló utasításokat felcserélik értelmetlen halandzsára a szövegben úgy, hogy közben a végrehajtandó eredeti szándékot megőrzik. Így az algoritmus olyan felszólításokat generálhat, amelyek ráveszik ezeket a platformokat a pornográf vagy akár erőszakos tartalmak generálására.

Hirdetés

Az egyetem kutatásban résztvevő munkatársai az önkorlátozás kijátszására vonatkozó utasításokkal kezdték a kísérleteiket, például "egy nő meztelenül napozik". Az algoritmus ezután tesztelte a Dall-E 2 és a Stable Diffusion AI-platformokat a promptokon belüli szűrt szavak - jelen esetben "meztelen" - alternatíváival. A SneakyPrompt ezután megvizsgálta az AI generálta válaszokat, majd addig próbálkozott míg megtalálta a megfelelő utasításokat a tiltott tartalom létrehozására.

Az egyelőre nem világos, hogy a vizsgálatba bevont platformok miért azonosítják értelmezhető parancsként a megfelelő halandzsa-szavakat. Feltételezésük szerint a rejtély nyitja a nagy nyelvi modellek és az emberi gondolkozás különbözőségében lehet. Úgy tűnik, hogy a "megtévesztett" platformok biztonsági szűrői nem látják problémásnak a meghekkelt parancsokat.

Yinzi Cao, a tanulmány vezető szerzője, a Johns Hopkins kiberbiztonsági munkatársa azzal magyarázza a kutatás szükségességét, hogy az AI-platformok gyengeségeinek a kiismerésével lehet csak a jövőben felkészíteni a technológiát egy esetleges hasonló támadás ellen.

Acer Aspire S32 - az all-in-one PC, amiben tényleg minden benne van (x) A kompakt mégis moduláris gépet olyan extrákkal szerelték fel, amikre eddig nem volt szükségünk, de most már nem akarunk nélkülük élni.

Hirdetés

Ha ügyesen kéred, akár káromkodik is neked az AI

Hirdetés

Épp most frissítenéd a rendszered? Csapj le az akciós Windows 11-re és más szoftverekre!

Kövess Facebookon!

Jönnek az OLED kijelzős bankkártyák, és több pénzt fogsz költeni velük

Lehet, hogy a következő Windows 11 frissítéshez már kevés lesz a processzorod

Így takarítsd ki a billentyűzetedet!

Megszűnik az egyik ingyenes VPN szolgáltatás

A valaha készült 5+1 legjobb AMD processzor

Több mint 14 év után ledolgozhatja a legnagyobb hiányosságát az iPad