Home / Elektriske biler  / Ny algoritme åpner opp for høyoppløselig innsikt i datasyn

Ny algoritme åpner opp for høyoppløselig innsikt i datasyn

FeatUp, som er utviklet av MIT CSAIL-forskere, øker oppløsningen i alle dype nettverk eller visuelle grunnlag for datasynssystemer.

Imagine yourself glancing at a busy street for a few moments, then trying to sketch the scene you saw from memory. Most people could draw the rough positions of the major objects like cars, people, and crosswalks, but almost no one can draw every detail with pixel-perfect accuracy. The same is true for most modern computer vision algorithms: They are fantastic at capturing high-level details of a scene, but they lose fine-grained details as they process information.

 

Now, MIT researchers have created a system called “FeatUp” that lets algorithms capture all of the high- and low-level details of a scene at the same time — almost like Lasik eye surgery for computer vision.

When computers learn to “see” from looking at images and videos, they build up “ideas” of what’s in a scene through something called “features.” To create these features, deep networks and visual foundation models break down images into a grid of tiny squares and process these squares as a group to determine what’s going on in a photo. Each tiny square is usually made up of anywhere from 16 to 32 pixels, so the resolution of these algorithms is dramatically smaller than the images they work with. In trying to summarize and understand photos, algorithms lose a ton of pixel clarity.

 

The FeatUp algorithm can stop this loss of information and boost the resolution of any deep network without compromising on speed or quality. This allows researchers to quickly and easily improve the resolution of any new or existing algorithm. For example, imagine trying to interpret the predictions of a lung cancer detection algorithm with the goal of localizing the tumor. Applying FeatUp before interpreting the algorithm using a method like class activation maps (CAM) can yield a dramatically more detailed (16-32x) view of where the tumor might be located according to the model.

FeatUp hjelper ikke bare utøverne med å forstå modellene sine, men kan også forbedre en rekke ulike oppgaver som objektdeteksjon, semantisk segmentering (tilordning av etiketter til piksler i et bilde med objektetiketter) og dybdeestimering. Dette oppnås ved å gi mer nøyaktige, høyoppløselige funksjoner, noe som er avgjørende for å utvikle synsprogrammer som spenner fra autonom kjøring til medisinsk bildebehandling.

 

“Essensen i all datasyn ligger i disse dype, intelligente funksjonene som dukker opp fra dypet av dyp læringsarkitektur. Den store utfordringen med moderne algoritmer er at de reduserer store bilder til svært små rutenett med “smarte” funksjoner, slik at man får intelligent innsikt, men mister de finere detaljene”, sier Mark Hamilton, doktorgradsstudent i elektroteknikk og informatikk ved MIT, tilknyttet MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) og medforfatter av en artikkel om prosjektet. “FeatUp bidrar til å muliggjøre det beste fra begge verdener: svært intelligente representasjoner med originalbildets oppløsning. Disse høyoppløselige funksjonene øker ytelsen betydelig på tvers av et bredt spekter av datasynsoppgaver, fra å forbedre objektgjenkjenning og dybdeprediksjon til å gi en dypere forståelse av nettverkets beslutningsprosess gjennom høyoppløselig analyse.”

Oppløsningens renessanse

 

Etter hvert som disse store AI-modellene blir mer og mer utbredt, øker behovet for å forklare hva de gjør, hva de ser på og hva de tenker.

 

Men hvordan kan FeatUp finne ut av disse detaljene? Merkelig nok ligger hemmeligheten i å vri og vrenge på bildene.

 

FeatUp gjør små justeringer (som å flytte bildet noen piksler til venstre eller høyre) og ser hvordan en algoritme reagerer på disse små bevegelsene i bildet. Dette resulterer i hundrevis av kart over dype funksjoner som alle er litt forskjellige, og som kan kombineres til ett enkelt skarpt, høyoppløst sett med dype funksjoner. “Vi forestiller oss at det finnes noen høyoppløselige funksjoner, og at når vi vrir på dem og gjør dem uskarpe, vil de matche alle de opprinnelige funksjonene med lavere oppløsning fra de vridde bildene. Målet vårt er å lære hvordan vi kan foredle de lavoppløselige trekkene til høyoppløselige trekk ved hjelp av dette “spillet” som forteller oss hvor godt vi gjør det”, sier Hamilton. Denne metoden er analog med hvordan algoritmer kan lage en 3D-modell av flere 2D-bilder ved å sikre at det forutsagte 3D-objektet samsvarer med alle 2D-bildene som ble brukt til å lage det. I FeatUps tilfelle predikerer de et høyoppløselig funksjonskart som stemmer overens med alle de lavoppløselige funksjonskartene som er dannet ved å jittere originalbildet.

 

Teamet bemerker at standardverktøyene i PyTorch ikke var tilstrekkelige for deres behov, og introduserte en ny type dype nettverkslag i jakten på en rask og effektiv løsning. Deres spesialtilpassede lag, en spesiell felles bilateral oppsamplingsoperasjon, var over 100 ganger mer effektiv enn en naiv implementering i PyTorch. Teamet viste også at dette nye laget kunne forbedre en rekke ulike algoritmer, inkludert semantisk segmentering og dybdeprediksjon. Dette laget forbedret nettverkets evne til å behandle og forstå høyoppløselige detaljer, noe som ga alle algoritmer som brukte det, et betydelig ytelsesløft.

“Et annet bruksområde er såkalt “small object retrieval”, der algoritmen vår muliggjør presis lokalisering av objekter. Selv i uoversiktlige veiscener kan algoritmer som er beriket med FeatUp, for eksempel se små objekter som trafikkjegler, reflekser, lys og jettegryter der algoritmer med lav oppløsning mislykkes. Dette viser at FeatUp er i stand til å forstørre grove elementer til svært detaljerte signaler”, sier Stephanie Fu ’22, MNG ’23, doktorgradsstudent ved University of California i Berkeley og medforfatter av den nye FeatUp-rapporten. “Dette er spesielt viktig for tidssensitive oppgaver, som å finne et trafikkskilt på en uoversiktlig motorvei i en førerløs bil. Dette kan ikke bare forbedre nøyaktigheten i slike oppgaver ved å gjøre grove gjetninger om til nøyaktige lokaliseringer, men kan også gjøre disse systemene mer pålitelige, tolkbare og troverdige.”

Hva blir det neste?

 

Når det gjelder fremtidige ambisjoner, legger teamet vekt på at FeatUp kan bli tatt i bruk i og utenfor forskningsmiljøet, i likhet med dataforsterkning. “Målet er å gjøre denne metoden til et grunnleggende verktøy for dyp læring, og berike modeller som kan oppfatte verden i større detalj uten den beregningsmessige ineffektiviteten ved tradisjonell høyoppløselig behandling”, sier Fu.

 

“FeatUp representerer et fantastisk fremskritt i retning av å gjøre visuelle representasjoner virkelig nyttige ved å produsere dem i full bildeoppløsning”, sier Noah Snavely, professor i informatikk ved Cornell University, som ikke var involvert i forskningen.

“Lærte visuelle representasjoner har blitt veldig gode de siste årene, men de produseres nesten alltid med svært lav oppløsning – du kan legge inn et fint bilde i full oppløsning og få tilbake et lite rutenett med funksjoner på størrelse med et frimerke. Det er et problem hvis du ønsker å bruke disse funksjonene i programmer som produserer resultater i full oppløsning. FeatUp løser dette problemet på en kreativ måte ved å kombinere klassiske ideer innen superoppløsning med moderne læringsmetoder, noe som fører til vakre, høyoppløselige funksjonskart.”

 

“Vi håper at denne enkle ideen kan få bred anvendelse. Den gir høyoppløselige versjoner av bildeanalyser som vi tidligere trodde bare kunne være lavoppløselige”, sier seniorforfatter William T. Freeman, professor i elektroteknikk og informatikk ved MIT og CSAIL-medlem.

 

Hovedforfatterne Fu og Hamilton har med seg MIT-ph.d.-studentene Laura Brandt SM ’21 og Axel Feldmann SM ’21, samt Zhoutong Zhang SM ’21, PhD ’22, som alle er eller har vært tilknyttet MIT CSAIL. Forskningen deres er delvis støttet av et National Science Foundation Graduate Research Fellowship, av National Science Foundation og Office of the Director of National Intelligence, av U.S. Air Force Research Laboratory og av U.S. Air Force Artificial Intelligence Accelerator. Gruppen vil presentere arbeidet sitt i mai på den internasjonale konferansen om læringsrepresentasjoner.