Home / Analytics  / Store språkmodeller bruker en overraskende enkel mekanisme for å hente frem lagret kunnskap.

Store språkmodeller bruker en overraskende enkel mekanisme for å hente frem lagret kunnskap.

Store språkmodeller, som for eksempel de som brukes i populære chatboter med kunstig intelligens som ChatGPT, er utrolig komplekse. Selv om disse modellene brukes som verktøy på mange områder, for eksempel innen kundesupport, kodegenerering og språkoversettelse, vet forskerne fortsatt ikke helt hvordan de fungerer.

 

I et forsøk på å forstå hva som foregår under panseret, har forskere ved blant annet MIT studert mekanismene som er i sving når disse enorme maskinlæringsmodellene henter inn lagret kunnskap.

 

De fant et overraskende resultat: Store språkmodeller (LLM) bruker ofte en svært enkel lineær funksjon for å gjenfinne og avkode lagrede fakta. Dessuten bruker modellen den samme avkodingsfunksjonen for lignende typer fakta. Lineære funksjoner, ligninger med bare to variabler og ingen eksponenter, fanger opp det enkle, rettlinjede forholdet mellom to variabler.

 

Forskerne viste at ved å identifisere lineære funksjoner for ulike fakta, kan de undersøke modellen for å se hva den vet om nye emner, og hvor i modellen denne kunnskapen er lagret.

 

Ved hjelp av en teknikk de utviklet for å estimere disse enkle funksjonene, fant forskerne ut at selv når en modell svarer feil på en oppgave, har den ofte lagret riktig informasjon. I fremtiden kan forskere bruke en slik tilnærming til å finne og korrigere feil i modellen, noe som kan redusere modellens tendens til å gi feilaktige eller meningsløse svar.

 

“Selv om disse modellene er veldig kompliserte, ikke-lineære funksjoner som er trent på massevis av data og er svært vanskelige å forstå, er det noen ganger veldig enkle mekanismer som virker i dem. Dette er et eksempel på det”, sier Evan Hernandez, doktorgradsstudent i elektroteknikk og informatikk (EECS) og medforfatter av en artikkel som beskriver disse funnene.

 

Hernandez har skrevet artikkelen sammen med Arnab Sharma, som studerer informatikk ved Northeastern University, hans veileder Jacob Andreas, førsteamanuensis ved EECS og medlem av Computer Science and Artificial Intelligence Laboratory (CSAIL), seniorforfatter David Bau, assisterende professor i informatikk ved Northeastern, og andre ved MIT, Harvard University og Israeli Institute of Technology. Forskningen vil bli presentert på den internasjonale konferansen om læringsrepresentasjoner.

 

Finne fakta

 

De fleste store språkmodeller, også kalt transformatormodeller, er nevrale nettverk. Nevrale nettverk er løst basert på menneskehjernen og inneholder milliarder av sammenkoblede noder, eller nevroner, som er gruppert i mange lag, og som koder og behandler data.

 

Mye av kunnskapen som er lagret i en transformator, kan representeres som relasjoner mellom subjekter og objekter. For eksempel er “Miles Davis spiller trompet” en relasjon som forbinder subjektet Miles Davis med objektet trompet.

 

Etter hvert som en transformator får mer kunnskap, lagrer den flere fakta om et bestemt emne i flere lag. Hvis en bruker spør om emnet, må modellen avkode de mest relevante faktaene for å svare på spørsmålet.

 

Hvis noen spør en transformator ved å si “Miles Davis spiller…”, skal modellen svare “Miles Davis spiller…”. .”, skal modellen svare “trompet” og ikke “Illinois” (delstaten der Miles Davis ble født).

 

“Et eller annet sted i nettverkets beregninger må det finnes en mekanisme som leter etter det faktum at Miles Davis spiller trompet, og som deretter henter ut denne informasjonen og bidrar til å generere det neste ordet. Vi ønsket å forstå hva denne mekanismen var”, sier Hernandez.

Forskerne satte opp en rekke eksperimenter for å undersøke LLM-er, og fant ut at selv om de er ekstremt komplekse, avkoder modellene relasjonell informasjon ved hjelp av en enkel lineær funksjon. Hver funksjon er spesifikk for den typen fakta som hentes inn.

 

For eksempel vil transformatoren bruke én avkodingsfunksjon hver gang den ønsker å finne ut hvilket instrument en person spiller, og en annen funksjon hver gang den ønsker å finne ut hvor personen er født.

 

Forskerne utviklet en metode for å estimere disse enkle funksjonene, og beregnet deretter funksjoner for 47 ulike relasjoner, for eksempel “hovedstad i et land” og “vokalist i et band”.

 

Selv om det kan finnes et uendelig antall mulige relasjoner, valgte forskerne å studere denne spesifikke delmengden fordi de er representative for den typen fakta som kan skrives på denne måten.

 

De testet hver funksjon ved å endre subjektet for å se om den kunne gjenfinne riktig objektinformasjon. For eksempel skulle funksjonen for “hovedstad i et land” finne Oslo hvis subjektet var Norge, og London hvis subjektet var England.

 

Funksjonene gjenfant riktig informasjon i mer enn 60 prosent av tilfellene, noe som viser at noe informasjon i en transformator kodes og gjenfinnes på denne måten.

 

“Men ikke alt er lineært kodet. For noen fakta kan vi ikke finne lineære funksjoner for dem, selv om modellen kjenner dem og vil forutsi tekst som stemmer overens med disse faktaene. Dette tyder på at modellen gjør noe mer komplisert for å lagre denne informasjonen”, sier han.

 

Visualisering av modellens kunnskap

 

De brukte også funksjonene til å finne ut hva en modell tror er sant om ulike emner.

 

I et eksperiment startet de med spørsmålet “Bill Bradley var en” og brukte avkodingsfunksjonene for “driver med sport” og “gikk på universitetet” for å se om modellen vet at senator Bradley var en basketballspiller som gikk på Princeton.

 

“Vi kan vise at selv om modellen kan velge å fokusere på ulik informasjon når den produserer tekst, koder den all denne informasjonen”, sier Hernandez.

 

De brukte denne undersøkelsesteknikken til å lage det de kaller en “attributtlinse”, et rutenett som visualiserer hvor spesifikk informasjon om en bestemt relasjon er lagret i transformatorens mange lag.

Attributtlinser kan genereres automatisk, noe som gir forskere en strømlinjeformet metode for å forstå mer om en modell. Dette visualiseringsverktøyet kan gjøre det mulig for forskere og ingeniører å korrigere lagret kunnskap og forhindre at en AI-chatbot gir falsk informasjon.

 

I fremtiden ønsker Hernandez og hans medarbeidere å få en bedre forståelse av hva som skjer i tilfeller der fakta ikke lagres lineært. De ønsker også å kjøre eksperimenter med større modeller og studere presisjonen til lineære avkodingsfunksjoner.

 

“Dette er et spennende arbeid som avdekker en manglende brikke i vår forståelse av hvordan store språkmodeller husker faktakunnskap under inferens. Tidligere arbeid har vist at LLM-er bygger informasjonsrike representasjoner av gitte emner, hvorfra spesifikke attributter trekkes ut under inferens. Dette arbeidet viser at den komplekse, ikke-lineære beregningen av LLM-er for attributtekstraksjon kan tilnærmes godt med en enkel lineær funksjon, sier Mor Geva Pipek, assisterende professor ved School of Computer Science ved Tel Aviv University, som ikke var involvert i dette arbeidet.

Kartlegging av klinkekuler

 

I den nye tilnærmingen har teamet utviklet en algoritme som automatisk kobler en LLMs naturlige språkbetegnelse for en bestemt deloppgave med robotens posisjon i det fysiske rommet eller et bilde som koder for robotens tilstand. Å koble en robots fysiske koordinater, eller et bilde av robotens tilstand, til en naturlig språkmerking kalles “grounding”. Teamets nye algoritme er designet for å lære en “klassifiserer”, noe som betyr at den lærer seg å automatisk identifisere hvilken semantisk deloppgave en robot er i – for eksempel “strekke seg” versus “øse” – gitt dens fysiske koordinater eller et bilde.

“Grounding-klassifiseringen legger til rette for denne dialogen mellom det roboten gjør i det fysiske rommet og det LLM vet om deloppgavene, og de begrensningene du må ta hensyn til innenfor hver deloppgave”, forklarer Wang.

Teamet demonstrerte tilnærmingen i eksperimenter med en robotarm som de trente på en oppgave med å hente klinkekuler. Eksperimentatorene trente roboten ved å fysisk lede den gjennom oppgaven med først å strekke seg ned i en bolle, øse opp klinkekuler, transportere dem over en tom bolle og helle dem oppi. Etter noen demonstrasjoner brukte teamet en forhåndsopplært LLM og ba modellen om å liste opp stegene som var involvert i å øse klinkekuler fra en bolle til en annen. Forskerne brukte deretter den nye algoritmen til å koble LLM-modellens definerte deloppgaver med robotens bevegelsesdata. Algoritmen lærte automatisk å tilordne robotens fysiske koordinater i bevegelsesbanene og den tilhørende bildevisningen til en gitt deloppgave.

Teamet lot deretter roboten utføre øseoppgaven på egen hånd ved hjelp av de nyinnlærte klassifisererne. Etter hvert som roboten beveget seg gjennom trinnene i oppgaven, dyttet og dyttet eksperimentatorene roboten ut av banen og slo klinkekuler av skjeen på ulike steder. I stedet for å stoppe og begynne forfra igjen, eller fortsette i blinde uten klinkekuler på skjeen, var roboten i stand til å korrigere seg selv og fullføre hver deloppgave før den gikk videre til neste. (Den forsikret seg for eksempel om at den hadde lykkes med å øse opp klinkekulene før den transporterte dem til den tomme skålen).

“Når roboten gjør feil med vår metode, trenger vi ikke å be mennesker om å programmere eller gi ekstra demonstrasjoner av hvordan den skal rette opp feil,” sier Wang. “Det er kjempespennende, for det gjøres nå en stor innsats for å trene opp husholdningsroboter med data som er samlet inn på teleoperasjonssystemer. Algoritmen vår kan nå konvertere disse treningsdataene til robust robotatferd som kan utføre komplekse oppgaver til tross for eksterne forstyrrelser.”