Naturlig språk øker LLM-resultatene innen koding, planlegging og robotikk

May 2, 2024

Store språkmodeller (Large Language Models, LLM) blir stadig mer nyttige for programmerings- og robotikkoppgaver, men når det gjelder mer kompliserte resonneringsproblemer, er gapet mellom disse systemene og mennesker stort. Uten evnen til å lære seg nye begreper slik mennesker gjør, klarer ikke disse systemene å danne gode abstraksjoner – det vil si representasjoner på høyt nivå av komplekse begreper som hopper over mindre viktige detaljer – og dermed kommer de til kort når de blir bedt om å utføre mer sofistikerte oppgaver.

Heldigvis har forskere ved MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) funnet en skattekiste av abstraksjoner i det naturlige språket. I tre artikler som skal presenteres på International Conference on Learning Representations denne måneden, viser gruppen hvordan hverdagsordene våre er en rik kilde til kontekst for språkmodeller, noe som hjelper dem med å bygge bedre overordnede representasjoner for kodesyntese, AI-planlegging og robotnavigasjon og -manipulering.

De tre separate rammeverkene bygger biblioteker med abstraksjoner for hver sin oppgave: LILO (library induction from language observations) kan syntetisere, komprimere og dokumentere kode; Ada (action domain acquisition) utforsker sekvensiell beslutningstaking for kunstig intelligens-agenter; og LGA (language-guided abstraction) hjelper roboter med å forstå omgivelsene sine bedre, slik at de kan utvikle mer gjennomførbare planer. Hvert system er en nevrosymbolsk metode, en type kunstig intelligens som blander menneskelignende nevrale nettverk og programlignende logiske komponenter.

LILO: Et nevrosymbolsk rammeverk som koder

Store språkmodeller kan brukes til å skrive løsninger på små kodingsoppgaver på kort tid, men de kan ennå ikke lage hele programvarebibliotek på samme måte som menneskelige programvareingeniører. For å kunne utvikle programvaren videre, må AI-modeller refaktorere (kutte ned og kombinere) koden til biblioteker med kortfattede, lesbare og gjenbrukbare programmer.

Refaktoriseringsverktøy som den tidligere utviklede MIT-ledede Stitch-algoritmen kan automatisk identifisere abstraksjoner, så som et nikk til Disney-filmen “Lilo & Stitch” kombinerte CSAIL-forskerne disse algoritmiske refaktoriseringstilnærmingene med LLM-er. Deres nevrosymbolske metode LILO bruker en standard LLM til å skrive kode, og parer den deretter med Stitch for å finne abstraksjoner som er grundig dokumentert i et bibliotek.

LILOs unike vektlegging av naturlig språk gjør at systemet kan utføre oppgaver som krever menneskelignende commonsense-kunnskap, for eksempel å identifisere og fjerne alle vokaler fra en kodestreng og tegne et snøfnugg. I begge tilfeller presterte CSAIL-systemet bedre enn frittstående LLM-er, samt en tidligere bibliotekslæringsalgoritme fra MIT kalt DreamCoder, noe som indikerer at det er i stand til å bygge opp en dypere forståelse av ordene i instruksjonene. Disse oppmuntrende resultatene peker på hvordan LILO kan hjelpe til med ting som å skrive programmer for å manipulere dokumenter som Excel-regneark, hjelpe kunstig intelligens med å svare på spørsmål om visuelle elementer og tegne 2D-grafikk.

“Språkmodeller foretrekker å jobbe med funksjoner som er navngitt på naturlig språk”, sier Gabe Grand SM ’23, MIT-ph.d.-student i elektroteknikk og informatikk, tilknyttet CSAIL og hovedforfatter av forskningen. “Arbeidet vårt skaper enklere abstraksjoner for språkmodeller og tildeler navn og dokumentasjon på naturlig språk til hver enkelt av dem, noe som fører til mer tolkbar kode for programmerere og bedre systemytelse.”

Når LILO blir bedt om å løse en programmeringsoppgave, bruker den først en LLM til raskt å foreslå løsninger basert på data den er trent på, og deretter søker systemet langsomt og mer uttømmende etter eksterne løsninger. Deretter identifiserer Stitch effektivt vanlige strukturer i koden og trekker ut nyttige abstraksjoner. Disse navngis og dokumenteres deretter automatisk av LILO, noe som resulterer i forenklede programmer som kan brukes av systemet til å løse mer komplekse oppgaver.

MIT-rammeverket skriver programmer i domenespesifikke programmeringsspråk, som Logo, et språk som ble utviklet ved MIT på 1970-tallet for å lære barn om programmering. Fremtidig forskning vil fokusere på å oppskalere automatiserte refaktoriseringsalgoritmer til å håndtere mer generelle programmeringsspråk som Python. Arbeidet deres representerer likevel et skritt fremover når det gjelder hvordan språkmodeller kan legge til rette for stadig mer forseggjorte kodingsaktiviteter.

Ada: Naturlig språk styrer planlegging av AI-oppgaver

Akkurat som i programmering mangler AI-modeller som automatiserer flertrinnsoppgaver i husholdninger og kommandobaserte videospill abstraksjoner. Tenk deg at du lager frokost og ber romkameraten din om å sette et varmt egg på bordet – de vil intuitivt abstrahere bakgrunnskunnskapen sin om matlaging på kjøkkenet ditt til en sekvens av handlinger. En LLM som har fått opplæring i lignende informasjon, vil derimot slite med å resonnere seg frem til hva de trenger for å lage en fleksibel plan.

Det CSAIL-ledede “Ada”-rammeverket, som er oppkalt etter den berømte matematikeren Ada Lovelace, som mange anser som verdens første programmerer, gjør fremskritt på dette området ved å utvikle biblioteker med nyttige planer for virtuelle kjøkkenoppgaver og spill. Metoden baserer seg på potensielle oppgaver og beskrivelser på naturlig språk, og deretter foreslår en språkmodell handlingsabstraksjoner fra dette datasettet. En menneskelig operatør rangerer og filtrerer de beste planene i et bibliotek, slik at de best mulige handlingene kan implementeres i hierarkiske planer for ulike oppgaver.

“Tradisjonelt har store språkmodeller slitt med mer komplekse oppgaver på grunn av problemer med å resonnere om abstraksjoner”, sier Lio Wong, hovedforsker i Ada, MIT-student i hjerne- og kognitiv vitenskap, tilknyttet CSAIL og medforfatter av LILO. “Men vi kan kombinere verktøyene som programvareingeniører og robotikere bruker med LLM-er for å løse vanskelige problemer, som for eksempel beslutningstaking i virtuelle miljøer.”

Da forskerne inkorporerte den mye brukte store språkmodellen GPT-4 i Ada, løste systemet flere oppgaver i en kjøkkensimulator og Mini Minecraft enn AI-beslutningssystemet “Code as Policies”. Ada brukte bakgrunnsinformasjonen som ligger skjult i det naturlige språket, til å forstå hvordan man plasserer kjølt vin i et skap og lager en seng. Resultatene viste en svimlende forbedring på henholdsvis 59 og 89 prosent.

Med denne suksessen håper forskerne å kunne generalisere arbeidet sitt til virkelige hjem, med håp om at Ada kan hjelpe til med andre husholdningsoppgaver og hjelpe flere roboter på et kjøkken. Foreløpig er den viktigste begrensningen at den bruker en generisk LLM, så CSAIL-teamet ønsker å bruke en kraftigere, finjustert språkmodell som kan hjelpe til med mer omfattende planlegging. Wong og kollegene hennes vurderer også å kombinere Ada med et nytt rammeverk for robotmanipulering fra CSAIL: LGA (språkstyrt abstraksjon).

Språkstyrt abstraksjon: Representasjoner for robotoppgaver

Andi Peng SM ’23, MIT-student i elektroteknikk og informatikk og tilknyttet CSAIL, og hennes medforfattere har utviklet en metode for å hjelpe maskiner med å tolke omgivelsene sine mer som mennesker, slik at de kan kutte ut unødvendige detaljer i et komplekst miljø som en fabrikk eller et kjøkken. Akkurat som LILO og Ada har LGA et nytt fokus på hvordan naturlig språk leder oss til disse bedre abstraksjonene.

I disse mer ustrukturerte miljøene vil en robot trenge litt sunn fornuft om hva den skal gjøre, selv med grunnleggende opplæring på forhånd. Hvis du for eksempel ber en robot om å gi deg en bolle, trenger maskinen en generell forståelse av hvilke funksjoner som er viktige i omgivelsene. Deretter kan den resonnere seg frem til hvordan den skal gi deg det du vil ha.

I LGAs tilfelle gir mennesker først en forhåndstrenet språkmodell en generell oppgavebeskrivelse på naturlig språk, for eksempel “gi meg hatten min”. Deretter oversetter modellen denne informasjonen til abstraksjoner om de essensielle elementene som trengs for å utføre denne oppgaven. Til slutt kan en imitasjonspolicy som er trent på noen få demonstrasjoner, implementere disse abstraksjonene for å veilede en robot til å ta tak i den ønskede gjenstanden.

Tidligere arbeid har krevd at en person må ta omfattende notater om ulike manipulasjonsoppgaver for å trene opp en robot, noe som kan være kostbart. Det er bemerkelsesverdig at LGA bruker språkmodeller til å produsere abstraksjoner som ligner på dem en menneskelig kommentator ville ha gjort, men på kortere tid. For å illustrere dette utviklet LGA robotretningslinjer for å hjelpe Boston Dynamics’ firbente robot Spot med å plukke opp frukt og kaste drikke i en resirkuleringsbeholder. Disse eksperimentene viser hvordan den MIT-utviklede metoden kan skanne verden og utvikle effektive planer i ustrukturerte miljøer, noe som potensielt kan veilede autonome kjøretøy på veien og roboter som jobber i fabrikker og på kjøkken.

“Innen robotikk ser vi ofte bort fra hvor mye vi må raffinere dataene våre for å gjøre en robot nyttig i den virkelige verden”, sier Peng. “I tillegg til å huske hva som er i et bilde for å lære opp roboter til å utføre oppgaver, ønsket vi å utnytte datasyn og tekstmodeller sammen med språk. Ved å produsere teksttekster ut fra det en robot ser, viser vi at språkmodeller i bunn og grunn kan bygge opp viktig kunnskap om verden for en robot.”

Utfordringen for LGA er at noen typer atferd ikke kan forklares med språk, noe som gjør visse oppgaver underspesifiserte. For å utvide hvordan de representerer funksjoner i et miljø, vurderer Peng og kollegene hennes å innlemme multimodale visualiseringsgrensesnitt i arbeidet sitt. I mellomtiden gir LGA roboter en bedre følelse av omgivelsene når de skal gi mennesker en hjelpende hånd.

Et “spennende grenseland” innen kunstig intelligens

“Biblioteklæring representerer et av de mest spennende grensene innen kunstig intelligens, og tilbyr en vei mot å oppdage og resonnere over komposisjonelle abstraksjoner”, sier assisterende professor ved University of Wisconsin-Madison Robert Hawkins, som ikke var involvert i artiklene. Hawkins bemerker at tidligere teknikker som har utforsket dette emnet, har vært “for dyre å bruke i stor skala” og har et problem med lambdaene, eller nøkkelordene som brukes til å beskrive nye funksjoner i mange språk, som de genererer. “De har en tendens til å produsere ugjennomsiktige “lambda-salater”, store hauger med funksjoner som er vanskelige å tolke. Disse nylige artiklene viser en overbevisende vei fremover ved å plassere store språkmodeller i en interaktiv sløyfe med symbolske søke-, komprimerings- og planleggingsalgoritmer. Dette arbeidet gjør det mulig å raskt utvikle mer tolkbare og tilpasningsdyktige biblioteker for den aktuelle oppgaven.”

Ved å bygge opp biblioteker med kodeabstraksjoner av høy kvalitet ved hjelp av naturlig språk, gjør de tre nevrosymbolske metodene det enklere for språkmodeller å takle mer kompliserte problemer og miljøer i fremtiden. Denne dypere forståelsen av de nøyaktige nøkkelordene i en ledetekst er en vei videre i utviklingen av mer menneskelignende AI-modeller.

MIT CSAIL-medlemmer er seniorforfattere for hver artikkel: Joshua Tenenbaum, professor i hjerne- og kognitiv vitenskap, for både LILO og Ada; Julie Shah, leder for Institutt for luftfart og romfart, for LGA; og Jacob Andreas, førsteamanuensis i elektroteknikk og informatikk, for alle tre. De øvrige MIT-forfatterne er alle doktorgradsstudenter: Maddy Bowers og Theo X. Olausson for LILO, Jiayuan Mao og Pratyusha Sharma for Ada, og Belinda Z. Li for LGA. Muxin Liu fra Harvey Mudd College var medforfatter på LILO; Zachary Siegel fra Princeton University, Jaihai Feng fra University of California i Berkeley og Noa Korneev fra Microsoft var medforfattere på Ada; og Ilia Sucholutsky, Theodore R. Sumers og Thomas L. Griffiths fra Princeton var medforfattere på LGA.

LILO og Ada ble delvis støttet av MIT Quest for Intelligence, MIT-IBM Watson AI Lab, Intel, U.S. Air Force Office of Scientific Research, U.S. Defense Advanced Research Projects Agency og U.S. Office of Naval Research, der sistnevnte prosjekt også mottok støtte fra Center for Brains, Minds and Machines. LGA mottok støtte fra U.S. National Science Foundation, Open Philanthropy, Natural Sciences and Engineering Research Council of Canada og U.S. Department of Defense.

POST TAGS:

ai Datavitenskap og teknologi Kunstig intelligens