Home / Kunstig Intelligens  / En raskere og bedre måte å forhindre at en AI-chatbot gir giftige svar på

En raskere og bedre måte å forhindre at en AI-chatbot gir giftige svar på

En bruker kan be ChatGPT om å skrive et dataprogram eller oppsummere en artikkel, og AI-chatboten vil sannsynligvis kunne generere nyttig kode eller skrive et overbevisende sammendrag. Men noen kan også be om instruksjoner for hvordan man bygger en bombe, og chatboten kan kanskje også gi dem.

 

For å forhindre dette og andre sikkerhetsproblemer bruker selskaper som bygger store språkmodeller, vanligvis en prosess som kalles red-teaming. Team av menneskelige testere skriver instruksjoner som skal utløse usikker eller giftig tekst fra modellen som testes. Disse instruksjonene brukes til å lære chatboten å unngå slike svar.

 

Men dette fungerer bare effektivt hvis ingeniørene vet hvilke giftige meldinger de skal bruke. Hvis menneskelige testere overser noen av instruksjonene, noe som er sannsynlig med tanke på antallet muligheter, kan en chatbot som anses som trygg, likevel være i stand til å generere utrygge svar.

 

Forskere fra Improbable AI Lab ved MIT og MIT-IBM Watson AI Lab brukte maskinlæring for å forbedre red-teaming. De utviklet en teknikk for å trene opp en stor språkmodell for red-team til automatisk å generere ulike spørsmål som utløser et bredere spekter av uønskede svar fra chatboten som testes.

 

De gjør dette ved å lære red-team-modellen å være nysgjerrig når den skriver instruksjoner, og å fokusere på nye instruksjoner som utløser giftige reaksjoner fra målmodellen.

 

Teknikken utkonkurrerte menneskelige testere og andre maskinlæringsmetoder ved å generere flere forskjellige meldinger som fremkalte stadig giftigere responser. I tillegg til at metoden deres gir betydelig bedre dekning av input som testes enn andre automatiserte metoder, kan den også fremkalle giftige responser fra en chatbot som menneskelige eksperter har bygget inn sikkerhetstiltak.

 

“Akkurat nå må alle store språkmodeller gjennomgå en svært lang periode med red-teaming for å sikre at de er trygge. Det er ikke bærekraftig hvis vi ønsker å oppdatere disse modellene i miljøer som endrer seg raskt. Vår metode gir oss en raskere og mer effektiv måte å gjøre denne kvalitetssikringen på”, sier Zhang-Wei Hong, doktorgradsstudent i elektroteknikk og informatikk (EECS) ved Improbable AI-laboratoriet og hovedforfatter av en artikkel om denne red-teaming-metoden.

 

Hongs medforfattere inkluderer EECS-studentene Idan Shenfield, Tsun-Hsuan Wang og Yung-Sung Chuang; Aldo Pareja og Akash Srivastava, forskere ved MIT-IBM Watson AI Lab; James Glass, seniorforsker og leder for Spoken Language Systems Group ved Computer Science and Artificial Intelligence Laboratory (CSAIL); og seniorforfatter Pulkit Agrawal, direktør for Improbable AI Lab og assisterende professor ved CSAIL. Forskningen vil bli presentert på den internasjonale konferansen om læringsrepresentasjoner.

 

Automatisert rød-teaming

 

Store språkmodeller, som de som driver AI-chatboter, trenes ofte opp ved å vise dem enorme mengder tekst fra milliarder av offentlige nettsteder. Det betyr at de ikke bare kan lære seg å generere giftige ord eller beskrive ulovlige aktiviteter, men at modellene også kan lekke personlig informasjon som de har plukket opp.

 

Fordi det er både tidkrevende og kostbart å bruke menneskelige red-teams, som ofte ikke er effektive nok til å generere et bredt nok utvalg av spørsmål til å sikre en modell fullt ut, har forskere forsøkt å automatisere prosessen ved hjelp av maskinlæring.

 

Slike teknikker trener ofte opp en red-team-modell ved hjelp av forsterkningslæring. Denne prøve-og-feile-prosessen belønner det røde teamets modell for å generere instruksjoner som utløser giftige responser fra chatboten som testes.

 

Men på grunn av måten forsterkningslæring fungerer på, vil red-team-modellen ofte fortsette å generere noen få lignende meldinger som er svært giftige, for å maksimere belønningen.

 

MIT-forskerne benyttet seg av en teknikk som kalles nysgjerrighetsdrevet utforskning. Red-team-modellen får insentiver til å være nysgjerrig på konsekvensene av hver melding den genererer, så den vil prøve meldinger med andre ord, setningsmønstre eller betydninger.

 

“Hvis red-team-modellen allerede har sett en bestemt ledetekst, vil det ikke skape nysgjerrighet i red-team-modellen å reprodusere den, så den vil bli presset til å lage nye ledetekster”, sier Hong.

 

I løpet av treningsprosessen genererer red-team-modellen en melding og interagerer med chatboten. Chatboten svarer, og en sikkerhetsklassifiseringsenhet vurderer hvor giftig svaret er, og belønner red-team-modellen basert på denne vurderingen.

Belønning av nysgjerrighet

 

Målet med red-team-modellen er å maksimere belønningen ved å fremkalle en enda giftigere respons med en ny respons. Forskerne muliggjør nysgjerrighet i red-team-modellen ved å endre belønningssignalet i forsterkningslæringsoppsettet.

 

I tillegg til å maksimere giftigheten inkluderer de for det første en entropibonus som oppmuntrer red-team-modellen til å være mer tilfeldig når den utforsker ulike instruksjoner. For det andre, for å gjøre agenten nysgjerrig, inkluderer de to nyhetsbelønninger. Den ene belønner modellen basert på likheten mellom ordene i instruksjonene, og den andre belønner modellen basert på semantisk likhet. (Mindre likhet gir høyere belønning).

 

For å forhindre at det røde teamets modell genererer tilfeldig, meningsløs tekst, som kan lure klassifikatoren til å tildele en høy toksisitetspoengsum, la forskerne også til en bonus for naturalistisk språk i treningsmålet.

 

Med disse tilleggene på plass sammenlignet forskerne toksisiteten og mangfoldet i svarene som deres red-team-modell genererte, med andre automatiserte teknikker. Modellen deres presterte bedre enn baseline på begge parameterne.

 

De brukte også red-team-modellen til å teste en chatbot som hadde blitt finjustert med tilbakemeldinger fra mennesker, slik at den ikke ga giftige svar. Med en nysgjerrighetsdrevet tilnærming klarte de raskt å finne 196 spørsmål som fremkalte giftige svar fra denne “trygge” chatboten.

 

“Vi ser en kraftig økning i antall modeller, og det forventes bare å øke. Forestill deg tusenvis av modeller, eller enda flere, og selskaper/laboratorier som kommer med hyppige modelloppdateringer. Disse modellene kommer til å bli en integrert del av livene våre, og det er viktig at de blir verifisert før de slippes for offentlig bruk. Manuell verifisering av modeller er rett og slett ikke skalerbart, og arbeidet vårt er et forsøk på å redusere den menneskelige innsatsen for å sikre en tryggere og mer pålitelig AI-fremtid”, sier Agrawal.

 

I fremtiden ønsker forskerne å gjøre red-team-modellen i stand til å generere spørsmål om flere ulike emner. De ønsker også å utforske muligheten for å bruke en stor språkmodell som toksisitetsklassifisering. På denne måten kan en bruker for eksempel trene opp toksisitetsklassifiseringen ved hjelp av et dokument om selskapets retningslinjer, slik at en red-team-modell kan teste en chatbot for brudd på selskapets retningslinjer.

 

“Hvis du lanserer en ny AI-modell og er bekymret for om den vil oppføre seg som forventet, bør du vurdere å bruke nysgjerrighetsdrevet red-teaming”, sier Agrawal.

 

Denne forskningen er delvis finansiert av Hyundai Motor Company, Quanta Computer Inc, MIT-IBM Watson AI Lab, et Amazon Web Services MLRA-forskningsstipend, U.S. Army Research Office, U.S. Defense Advanced Research Projects Agency Machine Common Sense Program, U.S. Office of Naval Research, U.S. Air Force Research Laboratory og U.S. Air Force Artificial Intelligence Accelerator.