Home / Kunstig Intelligens  / Hugging Face lanserer syns- og språkmodellen Idefics2

Hugging Face lanserer syns- og språkmodellen Idefics2

Hugging Face har lansert Idefics2, en allsidig modell som kan forstå og generere tekstsvar basert på både bilder og tekst. Modellen setter en ny standard for å svare på visuelle spørsmål, beskrive visuelt innhold, lage historier fra bilder, trekke ut informasjon fra dokumenter og til og med utføre regneoperasjoner basert på visuell input.

 

Idefics2 overgår forgjengeren, Idefics1, med bare åtte milliarder parametere og allsidigheten som den åpne lisensen (Apache 2.0) gir, sammen med bemerkelsesverdig forbedrede OCR-funksjoner (Optical Character Recognition).

 

Modellen viser ikke bare eksepsjonell ytelse i benchmarks for visuelle spørsmål, men holder også stand mot langt større konkurrenter som LLava-Next-34B og MM1-30B-chat:

 

 

Det som gjør Idefics2 så attraktivt, er at det er integrert med Hugging Faces Transformers fra starten av, noe som gjør det enkelt å finjustere for et bredt spekter av multimodale bruksområder. De som er ivrige etter å prøve seg frem, kan eksperimentere med modeller på Hugging Face Hub.

 

Idefics2 skiller seg ut med sin omfattende opplæringsfilosofi, der åpent tilgjengelige datasett, inkludert nettdokumenter, bilde-tekstpar og OCR-data, blandes. I tillegg introduserer Idefics2 et innovativt finjusteringsdatasett kalt “The Cauldron”, som består av 50 nøye utvalgte datasett for mangefasettert samtaletrening.

 

Idefics2 har en raffinert tilnærming til bildemanipulering og opprettholder opprinnelige oppløsninger og størrelsesforhold – et bemerkelsesverdig avvik fra konvensjonelle størrelsesnormer innen datasyn. Arkitekturen drar stor nytte av avanserte OCR-funksjoner, som gjør det mulig å transkribere tekstinnhold i bilder og dokumenter, og har forbedret ytelse når det gjelder å tolke diagrammer og figurer.

 

Forenklingen av integreringen av visuelle funksjoner i språkets ryggrad markerer et skifte i forhold til forgjengerens arkitektur, med bruk av en lært Perceiver-pooling og MLP-modalitetsprojeksjon som forbedrer Idefics2s generelle effektivitet.

 

Dette fremskrittet innen syns- og språkmodeller åpner nye muligheter for å utforske multimodale interaksjoner, og Idefics2 er klar til å fungere som et grunnleggende verktøy for samfunnet. Idefics2s forbedrede ytelse og tekniske innovasjoner understreker potensialet som ligger i å kombinere visuelle og tekstlige data for å skape sofistikerte, kontekstuelt bevisste AI-systemer.