Home / Featured  / Fare og mulighet for nyhetsbransjen når kunstig intelligens frir etter viktige menneskeskrevne tekster

Fare og mulighet for nyhetsbransjen når kunstig intelligens frir etter viktige menneskeskrevne tekster

OpenAI, som utvikler ChatGPT, vet at data av høy kvalitet er viktig i kunstig intelligens-bransjen – og nyhetsutgivere har store mengder av dem.

 

“Det ville være umulig å trene opp dagens ledende AI-modeller uten å bruke opphavsrettsbeskyttet materiale”, sa selskapet i år i et innlegg til det britiske overhuset, og la til at det å begrense alternativene til bøker og tegninger i det offentlige rom ville skape underveldende produkter.

 

AI-laboratorier konstruerer store språkmodeller – teknologien som ligger til grunn for verktøy som OpenAIs ledende chatbot – ved hjelp av billioner av ord hentet fra internett, en viktig ressurs for å fremskaffe materiale som gjør det mulig for LLM-er å forstå tekstbaserte spørsmål og forutsi riktig respons på dem.

 

OpenAIs avtale med Financial Times denne uken understreker det amerikanske selskapets behov for akseptabelt materiale, og FT-konsernets administrerende direktør, John Ridding, sier “Det er helt klart i brukernes interesse at disse produktene inneholder pålitelige kilder.”

 

Etter hvert som AI-laboratoriene blir stadig mer sultne på pålitelig, tidsriktig og fremfor alt menneskeskrevet tekst for å gjøre svarene så gode som mulig, vurderer nyhetsbransjen hvordan de best kan reagere: Mens mange trapper opp kampen for å forsvare sitt opphavsrettsbeskyttede territorium, går andre i dialog med de store AI-aktørene for å komme frem til et kompromiss – og potensielt oppnå en viss kommersiell fordel.

 

Det første store slaget for forsvaret kom i desember, da New York Times saksøkte OpenAI og Microsoft, AI-selskapets største investor, for brudd på opphavsretten. I rettsdokumentene demonstrerte avisen at OpenAIs chatroboter kunne overtales til å gjenskape artikler fra arkivet nesten ordrett.

 

OpenAI hevdet på sin side at NYTs “prompting” var mer enn bare urealistisk: Utgiveren brukte “villedende prompter som åpenbart bryter med OpenAIs bruksvilkår … Sannheten, som vil komme frem i løpet av denne saken, er at Times betalte noen for å hacke OpenAIs produkter”.

 

Den kalde krigen mellom NYT og OpenAI hadde ulmet i flere måneder før søksmålet ble lansert. I august blokkerte avisen OpenAIs webcrawler – som samler inn data til modellene – fra å få tilgang til nettstedet sitt. The Guardian og BBC fulgte etter.

 

Reuters og CNN har tatt grep for å hindre selskapet i å lese materialet deres, noe som har liten juridisk tyngde, men som i praksis gjør det vanskeligere å bruke nyheter som treningsdata.

 

I månedene som har gått siden da, har andre gått til søksmål. De uavhengige utgiverne Intercept, Raw Story og AlterNet saksøkte i februar, mens hedgefondet Alden Global Capital, som eier åtte amerikanske aviser, i april lanserte en rekke søksmål rettet mot både ChatGPT og Microsofts Copilot AI.

 

I en tale i januar avviste OpenAIs administrerende direktør, Sam Altman, NYTs relevans for selskapets produkter. “En bestemt opplæringskilde flytter ikke nålen så mye for oss”, sa han.

 

Ikke desto mindre har det blitt inngått avtaler med nyhetsutgivere som ser en ny inntektsstrøm, mens OpenAI, som det sa om denne ukens FT-avtale, ønsker å “berike ChatGPT-opplevelsen med sanntidsjournalistikk i verdensklasse”.

 

Avtalen lar OpenAI trene fremtidige modeller på FT-innhold, samtidig som nyhetskonsernet får tilgang til AI-utviklerens teknologi og ekspertise for å bygge verktøy for sin egen virksomhet. ChatGPT-brukere vil også motta sammendrag og sitater fra FT-journalistikk, samt lenker til artikler, som svar på spørsmål, der det er hensiktsmessig.

 

OpenAI har allerede signert lisensavtaler med det amerikanske nyhetsbyrået Associated Press, den franske avisen Le Monde, El País’ eier Prisa Media og tyske Axel Springer, som utgir tabloidavisen Bild.

 

En talsperson for Guardian News & Media, som utgir The Guardian, bekreftet at de for øyeblikket ikke har noen avtale med OpenAI, men la til at de fortsatt er i dialog med en rekke ledende AI-selskaper.

 

Avtalene understreker den usikre maktbalansen mellom kunstig intelligens og mediene. På den ene siden har den usikre opphavsrettsbeskyttelsen og den enkle tilgangen til materiale på nettet oppmuntret mange AI-selskaper til å ta sjansen på å bruke ulisensierte data, i håp om at de vil kunne påberope seg rettferdig bruk i eventuelle rettstvister. Når de trenger å lisensiere materiale, oppmuntrer den enkle tilgangen til mye av rapporteringen til en “splitt og hersk”-tilnærming – hvis det bare trengs én avtale for å holde en chatbot oppdatert med de siste nyhetene, gir dette et sterkt forhandlingspotensial.

 

Niamh Burns, senioranalytiker hos Enders Analysis, mener at OpenAI og FT har nok insentiver til å inngå en avtale, men at utgivere og teknologiselskaper har ulike perspektiver ved forhandlingsbordet.

 

“Forlagene sier at det å bruke innholdet deres til å utdanne LLM-er er i strid med deres bruksvilkår, og at lisensiering er avgjørende. OpenAI sier at det ikke bryter med opphavsretten, og presenterer avtalene som frivillig støtte til journalistikksektoren, sier hun.

 

“Lisensiering er fortsatt en gråsone, men disse tidlige avtalene skaper presedens. Problemet for utgiverne er at vi ikke aner hvordan AI-produkter vil se ut om et år. De vet kanskje ikke engang hva de skal be om.”

 

Samtidig betyr AI-modellenes glupske natur at de alltid trenger mer data. James Betker fra OpenAI hevdet i fjor at forskjellen i kvalitet mellom AI-modeller utelukkende skyldes datasettet.

“Modellens oppførsel bestemmes ikke av arkitektur, hyperparametere eller valg av optimaliseringsverktøy”, sa han, med henvisning til de tekniske vanskelighetene med å trene opp en språkmodell. “Det er datasettet som avgjør, ikke noe annet. Alt annet er et middel til å oppnå målet om å effektivt [levere] databehandling for å tilnærme seg datasettet.”

 

Hvis dette stemmer, betyr det at et selskap med få tekniske ferdigheter, men et tilstrekkelig stort datasett, vil ha lettere for å bygge et førsteklasses AI-system enn et selskap med like store ressurser og ekspertingeniører, men uten tilgang til opplæringsdata – en helt annen balanse mellom ferdigheter enn det som vanligvis antas. Uansett understreker det viktigheten av nyhetsredaksjonenes arbeid for neste generasjon AI-modeller.