Home / Kunstig Intelligens  / “Many-shot jailbreak”: Laboratorium avslører hvordan AI-sikkerhetsfunksjoner enkelt kan omgås

“Many-shot jailbreak”: Laboratorium avslører hvordan AI-sikkerhetsfunksjoner enkelt kan omgås

Sikkerhetsfunksjonene i noen av de kraftigste AI-verktøyene som skal hindre at de brukes til cyberkriminalitet eller terrorisme, kan omgås ved å oversvømme dem med eksempler på ugjerninger, viser forskning.

 

I en artikkel fra AI-laboratoriet Anthropic, som produserer den store språkmodellen (LLM) som ligger bak ChatGPT-rivalen Claude, beskriver forskerne et angrep de kaller “many-shot jailbreaking”. Angrepet var like enkelt som det var effektivt.

 

I likhet med de fleste store kommersielle AI-systemer inneholder Claude sikkerhetsfunksjoner som skal få systemet til å avvise visse forespørsler, for eksempel å generere voldelig eller hatefull tale, produsere instruksjoner for ulovlige aktiviteter, bedra eller diskriminere. En bruker som for eksempel ber systemet om instruksjoner for å bygge en bombe, vil få et høflig avslag.

 

Men AI-systemer fungerer ofte bedre – uansett oppgave – når de får eksempler på hva som er “riktig” å gjøre. Og det viser seg at hvis du gir nok eksempler – hundrevis – på det “riktige” svaret på skadelige spørsmål som “hvordan binder jeg noen”, “hvordan forfalsker jeg penger” eller “hvordan lager jeg metamfetamin”, vil systemet gjerne fortsette trenden og svare på det siste spørsmålet selv.

 

“Ved å inkludere store mengder tekst i en bestemt konfigurasjon kan denne teknikken tvinge LLM-er til å produsere potensielt skadelige svar, til tross for at de er opplært til ikke å gjøre det”, sier Anthropic. Selskapet legger til at de allerede har delt sine forskningsresultater med fagfeller, og at de nå går ut offentlig for å bidra til å løse problemet “så snart som mulig”.

 

Selv om angrepet, kjent som en jailbreak, er enkelt, har det ikke blitt sett før fordi det krever en AI-modell med et stort “kontekstvindu”: evnen til å svare på et spørsmål som er mange tusen ord langt. Enklere AI-modeller kan ikke lures på denne måten, fordi de i praksis glemmer begynnelsen på spørsmålet før de kommer til slutten, men den nyeste utviklingen innen AI åpner nye muligheter for angrep.

 

Nyere, mer komplekse AI-systemer ser ut til å være mer sårbare for slike angrep, også utover det faktum at de kan fordøye lengre input. Ifølge Anthropic kan det skyldes at disse systemene er bedre til å lære av eksempler, noe som betyr at de også lærer raskere å omgå sine egne regler.

 

“Med tanke på at større modeller er de som potensielt er mest skadelige, er det spesielt bekymringsfullt at denne jailbreakingen fungerer så godt på dem”, heter det.

 

Selskapet har funnet noen tilnærminger til problemet som fungerer. Det enkleste er å legge til en obligatorisk advarsel etter at brukeren har tastet inn noe som minner systemet om at det ikke må gi skadelige svar, noe som ser ut til å redusere sjansene for en effektiv jailbreak betraktelig. Forskerne sier imidlertid at denne tilnærmingen også kan gjøre systemet dårligere til andre oppgaver.