Microsoft presenterer Phi-3-familien av kompakte språkmodeller

April 24, 2024

Microsoft har lansert Phi-3-familien av åpne små språkmodeller (SLM-er), og fremhever dem som de mest kapable og kostnadseffektive i sin størrelse på markedet. Den innovative opplæringsmetoden som er utviklet av Microsoft-forskere, har gjort det mulig for Phi-3-modellene å utkonkurrere større modeller på benchmarks for språk, koding og matematikk.

“Det vi kommer til å se, er ikke et skifte fra store til små modeller, men et skifte fra en enkelt kategori av modeller til en portefølje av modeller der kundene får muligheten til å ta en beslutning om hva som er den beste modellen for deres scenario”, sier Sonali Yadav, Principal Product Manager for Generative AI hos Microsoft.

Den første Phi-3-modellen, Phi-3-mini med 3,8 milliarder parametere, er nå offentlig tilgjengelig i Azure AI Model Catalog, Hugging Face, Ollama og som en NVIDIA NIM-mikrotjeneste. Til tross for sin kompakte størrelse utkonkurrerer Phi-3-mini modeller som er dobbelt så store. Flere Phi-3-modeller, som Phi-3-small (7B parametere) og Phi-3-medium (14B parametere), vil snart følge.

“Noen kunder trenger kanskje bare små modeller, andre trenger store modeller, og mange kommer til å ønske å kombinere begge deler på ulike måter”, sier Luis Vargas, VP for AI i Microsoft.

Den viktigste fordelen med SLM-er er at de er så små at de kan installeres på enheten og gi AI-opplevelser med lav forsinkelse uten nettverkstilkobling. Potensielle bruksområder inkluderer smarte sensorer, kameraer, landbruksutstyr og mer. Personvern er en annen fordel ved å beholde data på enheten.

Store språkmodeller (LLM) utmerker seg med komplekse resonnementer over store datasett – en styrke som egner seg godt til bruksområder som legemiddeloppdagelse ved å forstå interaksjoner på tvers av vitenskapelig litteratur. SLM-er er imidlertid et overbevisende alternativ for enklere spørsmålssvar, oppsummering, innholdsgenerering og lignende.

“I stedet for å jakte på stadig større modeller utvikler Microsoft verktøy med mer nøye kuraterte data og spesialisert opplæring”, kommenterer Victor Botev, CTO og medgrunnlegger av Iris.ai.

“Dette gir bedre ytelse og resonneringsevne uten de enorme beregningskostnadene ved modeller med billioner av parametere. Hvis dette løftet innfris, vil det bety at vi fjerner en enorm adopsjonsbarriere for bedrifter som er på utkikk etter AI-løsninger.”

Banebrytende opplæringsteknikk

Det som muliggjorde Microsofts SLM-kvalitetssprang, var en innovativ datafiltrering og -generering inspirert av godnatthistorier.

“I stedet for å trene på bare rådata fra nettet, hvorfor ikke lete etter data som er av ekstremt høy kvalitet?” spurte Sebastien Bubeck, Microsofts viseadministrerende direktør med ansvar for SLM-forskning.

Ronen Eldans nattlige leserutiner med datteren utløste ideen om å generere et “TinyStories”-datasett med millioner av enkle fortellinger som ble skapt ved å spørre en stor modell med kombinasjoner av ord som en 4-åring ville kjenne til. Det var oppsiktsvekkende at en modell med 10 millioner parametere som var trent på TinyStories, kunne generere flytende historier med perfekt grammatikk.

Basert på denne tidlige suksessen anskaffet teamet nettdata av høy kvalitet som var kontrollert med tanke på pedagogisk verdi, for å skape datasettet “CodeTextbook”. Dette ble syntetisert gjennom runder med spørring, generering og filtrering av både mennesker og store AI-modeller.

“Det ligger mye arbeid bak produksjonen av disse syntetiske dataene”, sier Bubeck. “Vi tar ikke alt vi produserer.”

Opplæringsdataene av høy kvalitet viste seg å være banebrytende. “Fordi det er tekstboklignende materiale … gjør du det mye enklere for språkmodellen å lese og forstå dette materialet”, forklarer Bubeck.

Redusere sikkerhetsrisikoen ved AI

Til tross for den gjennomtenkte datakurateringen legger Microsoft vekt på å bruke ytterligere sikkerhetsrutiner i Phi-3-utgivelsen, noe som gjenspeiler standardprosessene for alle generative AI-modeller.

“Som med alle generative AI-modellutgivelser brukte Microsofts produkt- og ansvarlige AI-team en flerlagstilnærming for å håndtere og redusere risikoer i utviklingen av Phi-3-modeller”, heter det i et blogginnlegg.

Dette inkluderte ytterligere opplæringseksempler for å forsterke forventet atferd, vurderinger for å identifisere sårbarheter gjennom red-teaming, og å tilby Azure AI-verktøy for kunder for å bygge pålitelige applikasjoner på toppen av Phi-3.

POST TAGS: