Home / Analytics  / De store språkmodellenes fremvoksende evner er en illusjon

De store språkmodellenes fremvoksende evner er en illusjon

I et prosjekt kalt Beyond the Imitation Game benchmark, eller BIG-bench, samlet 450 forskere for to år siden en liste med 204 oppgaver for å teste egenskapene til store språkmodeller, som driver chatboter som ChatGPT. På de fleste oppgavene ble ytelsen forbedret på en forutsigbar og jevn måte etter hvert som modellene ble skalert opp – jo større modellen var, desto bedre ble den. Men for andre oppgaver var det ikke noe jevnt hopp i ytelsen. Prestasjonene holdt seg nær null en stund, før de økte kraftig. Andre studier fant lignende hopp i prestasjoner.

 

Forfatterne beskrev dette som et “gjennombrudd”, og andre forskere har sammenlignet det med en faseovergang i fysikken, som når flytende vann fryser til is. I en artikkel publisert i august 2022 påpekte forskerne at denne atferden ikke bare er overraskende, men også uforutsigbar, og at den bør være med på å påvirke samtalene om sikkerhet, potensial og risiko i forbindelse med kunstig intelligens. De kalte evnene “emergente”, et ord som beskriver kollektiv atferd som først oppstår når et system når et høyt kompleksitetsnivå.

Men så enkelt er det kanskje ikke. I en ny artikkel fra en forskertrio ved Stanford University hevder de at den plutselige opptredenen av disse evnene bare er en konsekvens av måten forskerne måler LLMs prestasjoner på. De hevder at evnene verken er uforutsigbare eller plutselige. “Overgangen er mye mer forutsigbar enn folk gir den æren for”, sier Sanmi Koyejo, informatiker ved Stanford og hovedforfatter av artikkelen.

“Sterke påstander om fremvekst har like mye å gjøre med måten vi velger å måle på som med hva modellene gjør.”

 

Det er først nå vi ser og studerer denne oppførselen på grunn av hvor store disse modellene har blitt. Store språkmodeller trenes opp ved å analysere enorme datasett med tekst – ord fra nettkilder som bøker, nettsøk og Wikipedia – og finne koblinger mellom ord som ofte forekommer sammen. Størrelsen måles i antall parametere, omtrent som alle måtene ord kan kobles sammen på. Jo flere parametere, desto flere koblinger kan LLM finne. GPT-2 hadde 1,5 milliarder parametere, mens GPT-3.5, LLM-en som driver ChatGPT, bruker 350 milliarder. GPT-4, som ble lansert i mars 2023 og nå ligger til grunn for Microsoft Copilot, bruker angivelig 1,75 billioner.

 

Den raske veksten har ført til en forbløffende økning i ytelse og effektivitet, og ingen bestrider at store nok LLM-er kan utføre oppgaver som mindre modeller ikke kan, inkludert oppgaver de ikke er trent for. Trioen ved Stanford som ser på fremveksten som en “luftspeiling”, erkjenner at LLM-er blir mer effektive når de skaleres opp; faktisk bør den økte kompleksiteten i større modeller gjøre det mulig å bli bedre på vanskeligere og mer varierte problemer. Men de hevder at hvorvidt denne forbedringen ser jevn og forutsigbar eller ujevn og skarp ut, er et resultat av valg av målemetode – eller til og med mangel på testeksempler – snarere enn modellens indre virkemåte.

Addition av tresifrede tall er et eksempel. I BIG-bench-studien fra 2022 rapporterte forskerne at både GPT-3 og en annen LLM ved navn LAMDA ikke klarte å løse addisjonsproblemer med færre parametere. Men da GPT-3 ble trent med 13 milliarder parametere, endret evnen seg som med et trylleslag. Plutselig kunne den addere – og det kunne LAMDA også, med 68 milliarder parametere. Dette tyder på at evnen til å addere oppstår ved en viss terskel.

 

Stanford-forskerne påpeker imidlertid at LLM-ene kun ble bedømt på nøyaktighet: Enten klarte de det perfekt, eller så klarte de det ikke. Så selv om en LLM forutså de fleste sifrene riktig, strøk den. Det virket ikke riktig. Hvis du regner ut 100 pluss 278, virker 376 som et mye mer nøyaktig svar enn for eksempel -9,34.

 

I stedet testet Koyejo og medarbeiderne hans den samme oppgaven ved hjelp av en metode som gir delvis uttelling. “Vi kan spørre: Hvor godt klarer den å forutsi det første sifferet? Deretter det andre? Og deretter det tredje?”, sier han.

 

Koyejo gir ideen til det nye arbeidet til sin doktorgradsstudent Rylan Schaeffer, som ifølge ham la merke til at en LLMs ytelse ser ut til å endre seg i takt med hvordan evnen måles. Sammen med Brando Miranda, en annen Stanford-student, valgte de nye beregninger som viste at LLM-ene forutså en stadig mer korrekt rekkefølge av sifre i addisjonsproblemer etter hvert som parametrene økte. Dette tyder på at evnen til å addere ikke er emergent – det vil si at den gjennomgår et plutselig, uforutsigbart hopp – men gradvis og forutsigbar. De finner at emergens forsvinner med en annen målestokk.
Men andre forskere påpeker at arbeidet ikke helt avkrefter ideen om emergens. For eksempel forklarer ikke trioen hvordan man kan forutsi når eller hvilke beregninger som vil vise en brå forbedring i en LLM, sier Tianshi Li, dataforsker ved Northeastern University. “Sånn sett er disse evnene fortsatt uforutsigbare”, sier hun. Andre, som Jason Wei, en dataforsker ved OpenAI som har utarbeidet en liste over nye evner og var en av forfatterne av BIG-bench-rapporten, har hevdet at de tidligere rapportene om fremvekst var fornuftige fordi det riktige svaret er det eneste som betyr noe for evner som aritmetikk.

 

“Dette er definitivt en interessant diskusjon”, sier Alex Tamkin, forsker ved AI-startupen Anthropic. Den nye artikkelen bryter behendig nedflerstegsoppgaver for å gjenkjenne bidragene fra de enkelte komponentene, sier han. “Men dette er ikke hele historien. Vi kan ikke si at alle disse hoppene er en illusjon. Jeg mener fortsatt at litteraturen viser at selv når du har ett-trinns prediksjoner eller bruker kontinuerlige beregninger, har du fortsatt diskontinuiteter, og når du øker størrelsen på modellen din, kan du fortsatt se at den blir bedre på en hopplignende måte.”

 

Og selv om fremveksten i dagens LLM-modeller kan forklares med ulike måleverktøy, er det sannsynlig at det ikke vil være tilfelle for morgendagens større og mer kompliserte LLM-modeller. “Når vi utvikler LLM-er til neste nivå, vil de uunngåelig låne kunnskap fra andre oppgaver og andre modeller”, sier Xia “Ben” Hu, dataforsker ved Rice University.

 

Denne utviklingen av emergens er ikke bare et abstrakt spørsmål for forskere. For Tamkin er det direkte knyttet til det pågående arbeidet med å forutsi hvordan LLM-er vil oppføre seg. “Disse teknologiene er så omfattende og anvendelige”, sier han. “Jeg håper at fagmiljøet bruker dette som et utgangspunkt for å understreke hvor viktig det er å bygge opp en vitenskap for å kunne forutsi disse tingene. Hvordan kan vi unngå å bli overrasket av neste generasjons modeller?”

POST TAGS: