Home / Featured  / Forskere forbedrer det perifere synet i AI-modeller

Forskere forbedrer det perifere synet i AI-modeller

Det perifere synet gjør det mulig for mennesker å se former som ikke er direkte i synsfeltet, om enn med mindre detaljer. Denne evnen utvider synsfeltet vårt og kan være nyttig i mange situasjoner, for eksempel når vi skal oppdage et kjøretøy som nærmer seg bilen fra siden.

 

I motsetning til mennesker har ikke kunstig intelligens perifert syn. Hvis datasynsmodeller utstyres med denne evnen, kan de bli bedre til å oppdage farer som nærmer seg, eller forutsi om en menneskelig sjåfør vil legge merke til et møtende objekt.

 

MIT-forskere har tatt et skritt i denne retningen ved å utvikle et bildedatasett som gjør det mulig å simulere perifert syn i maskinlæringsmodeller. De fant ut at trening av modeller med dette datasettet forbedret modellenes evne til å oppdage objekter i synsperiferien, selv om modellene fortsatt presterte dårligere enn mennesker.

 

Resultatene viste også at verken størrelsen på objektene eller mengden visuelt rot i en scene hadde stor innvirkning på AI-modellenes prestasjoner, i motsetning til hos mennesker.

“Det er noe grunnleggende som skjer her. Vi har testet så mange forskjellige modeller, og selv når vi trener dem, blir de litt bedre, men de er ikke helt som mennesker. Så spørsmålet er: Hva er det som mangler i disse modellene?” sier Vasha DuTell, postdoktor og medforfatter av en artikkel som beskriver denne studien.

 

Svaret på dette spørsmålet kan hjelpe forskerne med å bygge maskinlæringsmodeller som kan se verden mer som mennesker. I tillegg til å forbedre førersikkerheten kan slike modeller brukes til å utvikle skjermer som er lettere å se på for mennesker.

 

I tillegg kan en dypere forståelse av det perifere synet i AI-modeller hjelpe forskere med å bedre forutsi menneskelig atferd, legger hovedforfatter Anne Harrington MEng ’23 til.

 

“Hvis vi virkelig kan fange essensen av det som er representert i periferien, kan modellering av det perifere synet hjelpe oss med å forstå funksjonene i en visuell scene som får øynene våre til å bevege seg for å samle inn mer informasjon”, forklarer hun.

 

Medforfatterne er Mark Hamilton, doktorgradsstudent i elektroteknikk og informatikk, Ayush Tewari, postdoktor, Simon Stent, forskningssjef ved Toyota Research Institute, og seniorforfatterne William T. Freeman, Thomas og Gerd Perkins-professor i elektroteknikk og informatikk og medlem av Computer Science and Artificial Intelligence Laboratory (CSAIL), og Ruth Rosenholtz, hovedforsker ved Department of Brain and Cognitive Sciences og medlem av CSAIL. Forskningen vil bli presentert på International Conference on Learning Representations.

 

“Hver gang et menneske samhandler med en maskin – en bil, en robot, et brukergrensesnitt – er det enormt viktig å forstå hva personen kan se. Det perifere synet spiller en avgjørende rolle i denne forståelsen”, sier Rosenholtz.

 

Simulering av perifert syn

 

Strekk ut armen foran deg og hold tommelen opp – det lille området rundt tommelfingerneglen ser du i fovea, den lille fordypningen midt på netthinnen som gir det skarpeste synet. Alt annet du ser, befinner seg i den visuelle periferien. Synsbarken representerer en scene med færre detaljer og mindre pålitelighet jo lenger unna det skarpe fokuspunktet du beveger deg.

Mange av de eksisterende tilnærmingene til modellering av perifert syn i kunstig intelligens representerer denne detaljforringelsen ved å gjøre kantene på bildene uskarpe, men informasjonstapet som oppstår i synsnerven og synsbarken er langt mer komplekst.

 

For å få en mer nøyaktig tilnærming tok MIT-forskerne utgangspunkt i en teknikk som brukes til å modellere perifert syn hos mennesker. Denne metoden, som kalles teksturflisemodellen, transformerer bilder for å representere et menneskes visuelle informasjonstap.

 

De modifiserte denne modellen slik at den kunne transformere bilder på samme måte, men på en mer fleksibel måte som ikke krever at man på forhånd vet hvor personen eller den kunstige intelligensen vil rette blikket.

 

“Dermed kunne vi modellere det perifere synet på samme måte som det gjøres i forskning på menneskesyn”, sier Harrington.

 

Forskerne brukte denne modifiserte teknikken til å generere et stort datasett med transformerte bilder som ser mer teksturelle ut i visse områder, for å representere tapet av detaljer som oppstår når et menneske ser lenger ut i periferien.

 

Deretter brukte de datasettet til å trene opp flere datasynsmodeller og sammenlignet ytelsen deres med menneskers ytelse i en objektgjenkjenningsoppgave.

“Vi måtte være veldig smarte i måten vi la opp eksperimentet på, slik at vi også kunne teste det i maskinlæringsmodellene. Vi ville ikke være nødt til å lære opp modellene på nytt på en lekeoppgave som det ikke var meningen at de skulle gjøre”, sier hun.

 

Særegen ytelse

 

Mennesker og modeller ble vist par av transformerte bilder som var identiske, bortsett fra at det ene bildet hadde et målobjekt i periferien. Deretter ble hver deltaker bedt om å velge bildet med målobjektet.

 

“En ting som virkelig overrasket oss, var hvor flinke folk var til å oppdage objekter i periferien. Vi gikk gjennom minst 10 forskjellige sett med bilder som var altfor enkle. Vi måtte hele tiden bruke mindre og mindre objekter”, legger Harrington til.

 

Forskerne fant ut at de største prestasjonsforbedringene kom ved å trene opp modellene fra bunnen av med datasettet, noe som forbedret evnen til å oppdage og gjenkjenne objekter. Å finjustere en modell med datasettet, en prosess som innebærer å justere en forhåndstrenet modell slik at den kan utføre en ny oppgave, resulterte i mindre ytelsesforbedringer.

 

Men i alle tilfeller var maskinene ikke like gode som mennesker, og de var spesielt dårlige til å gjenkjenne objekter langt ute i periferien. Prestasjonene deres fulgte heller ikke de samme mønstrene som hos mennesker.

 

“Det kan tyde på at modellene ikke bruker kontekst på samme måte som mennesker når de skal utføre disse deteksjonsoppgavene. Modellenes strategi kan være annerledes”, sier Harrington.

 

Forskerne har planer om å fortsette å utforske disse forskjellene, med mål om å finne en modell som kan forutsi menneskers prestasjoner i den visuelle periferien. Dette kan for eksempel gjøre det mulig for AI-systemer å varsle bilførere om farer de kanskje ikke ser. De håper også å inspirere andre forskere til å gjennomføre flere datasynstudier med det offentlig tilgjengelige datasettet.

 

“Dette arbeidet er viktig fordi det bidrar til vår forståelse av at menneskets syn i periferien ikke bare bør betraktes som fattig syn på grunn av begrensninger i antall fotoreseptorer vi har, men snarere som en representasjon som er optimalisert for at vi skal kunne utføre oppgaver av betydning i den virkelige verden”, sier Justin Gardner, førsteamanuensis ved psykologisk institutt ved Stanford University, som ikke var involvert i dette arbeidet. “Dessuten viser arbeidet at nevrale nettverksmodeller, til tross for at de har gjort store fremskritt de siste årene, ikke klarer å matche menneskelig ytelse på dette området, noe som bør føre til mer AI-forskning for å lære av nevrovitenskapen om menneskets syn. Denne fremtidige forskningen vil bli betydelig hjulpet av databasen med bilder som forfatterne har levert for å etterligne perifert menneskesyn.”

 

 

 

 

POST TAGS: