Home / Analytics  / Reddits salg av brukerdata til AI-trening fører til FTC-undersøkelse

Reddits salg av brukerdata til AI-trening fører til FTC-undersøkelse

Plattformen sier at den vil tjene mer enn 200 millioner dollar de neste årene på Google og andre selskaper som ønsker brukerkommentarer til AI-prosjekter. Tilsynsmyndighetene stiller spørsmål.

I forkant av børsnoteringen neste uke sa REDDIT at lisensiering av brukerinnlegg til Google og andre for AI-prosjekter kan gi inntekter på 203 millioner dollar i løpet av de neste årene. Den community-drevne plattformen ble fredag tvunget til å opplyse om at amerikanske tilsynsmyndigheter allerede har stilt spørsmål ved det nye forretningsområdet.

I en melding opplyser Reddit at de torsdag mottok et brev fra US Federal Trade Commision med spørsmål om “salg, lisensiering eller deling av brukergenerert innhold med tredjeparter for å trene opp AI-modeller”.

FTC, som er den amerikanske regjeringens primære antitrustmyndighet, har myndighet til å sanksjonere selskaper som driver med urettferdig eller villedende handelspraksis. Ideen om å lisensiere brukergenerert innhold til AI-prosjekter har fått lovgivere og rettighetsgrupper til å stille spørsmål om personvernrisiko, rettferdighet og opphavsrett.

Reddit er ikke alene om å prøve å tjene penger på å lisensiere data, inkludert data generert av brukere, til AI. Spørsmål og svar-siden Stack Overflow har inngått en avtale med Google, Associated Press har inngått en avtale med OpenAI, og Tumblr-eieren Automattic har sagt at de jobber “med utvalgte AI-selskaper”, men at de vil gi brukerne mulighet til å reservere seg mot at dataene deres gis videre. Ingen av lisensgiverne svarte umiddelbart på forespørsler om kommentarer. Reddit er heller ikke det eneste selskapet som har mottatt et FTC-brev om datalisensiering, rapporterte Axios fredag, med henvisning til en ikke navngitt tidligere tjenestemann i byrået.

Det er uklart om brevet til Reddit er direkte relatert til granskningen av andre selskaper.

 

Reddit sa i fredagens avsløring at de ikke tror at de har engasjert seg i noen urettferdig eller villedende praksis, men advarte om at det kan være kostbart og tidkrevende å håndtere enhver myndighetsundersøkelse. “Brevet indikerte at FTC-ansatte var interessert i å møte oss for å lære mer om planene våre, og at FTC hadde til hensikt å be om informasjon og dokumenter fra oss etter hvert som henvendelsen fortsetter”, heter det i meldingen. Reddit sier at FTC-brevet beskrev granskningen som relatert til “en ikke-offentlig undersøkelse”.

Reddit, som med sine 17 milliarder innlegg og kommentarer blir sett på av AI-eksperter som verdifullt for opplæring av chatbots i samtalekunst, kunngjorde i forrige måned en avtale om å lisensiere innholdet til Google. Reddit og Google svarte ikke umiddelbart på forespørsler om kommentarer. FTC nektet å kommentere saken. (Advance Magazine Publishers, som står bak WIRED-utgiveren Condé Nast, eier en andel i Reddit).

AI-chatboter som OpenAIs ChatGPT og Googles Gemini blir sett på som en konkurransetrussel mot Reddit, forlag og andre annonsestøttede, innholdsdrevne virksomheter. I løpet av det siste året har muligheten til å lisensiere data til AI-utviklere dukket opp som en potensiell oppside ved generativ AI for noen selskaper.

Men bruken av data høstet på nettet for å trene opp AI-modeller har reist en rekke spørsmål i styrerom, rettssaler og i Kongressen. For Reddit og andre selskaper som bruker brukergenererte data, dreier det seg blant annet om hvem som egentlig eier innholdet, og om det er rettferdig å lisensiere det ut uten å gi skaperen en andel. Sikkerhetsforskere har funnet ut at AI-modeller kan lekke personopplysninger som inngår i materialet som brukes til å lage dem. Og noen kritikere har antydet at avtalene kan gjøre mektige selskaper enda mer dominerende.

Avtalen med Google var en av et “lite antall” datalisensieringsavtaler som Reddit har presentert for investorer for å øke interessen for aksjer som selges i forbindelse med børsnoteringen. Reddits administrerende direktør Steve Huffman beskrev selskapets data som uvurderlige. “Vi forventer at våre datafordeler og immaterielle rettigheter vil fortsette å være et nøkkelelement i opplæringen av fremtidige” AI-systemer, skrev han.

I et blogginnlegg i forrige måned om AI-avtalen med Reddit skrev Googles visepresident Rajan Patel at utnyttelse av tjenestens data ville gi verdifull ny informasjon, uten at han spesifiserte hva den skulle brukes til. “Google vil nå få effektiv og strukturert tilgang til ferskere informasjon, samt forbedrede signaler som vil hjelpe oss med å forstå Reddit-innholdet bedre og vise, trene på og ellers bruke det på de mest nøyaktige og relevante måtene”, skrev Patel.

FTC har tidligere uttrykt bekymring for hvordan data sendes rundt i AI-markedet. I januar kunngjorde FTC at de ville be Microsoft og deres partner og ChatGPT-utvikler OpenAI om informasjon om deres milliardrelasjon. Amazon, Google og AI-chatbotprodusenten Anthropic ble også avhørt om sine egne partnerskap, opplyser FTC. Byråets leder, Lina Khan, beskrev bekymringen som om partnerskapene mellom store selskaper og oppkomlinger ville føre til urettferdig konkurranse.

 

Reddit har lisensiert ut data til andre selskaper i en årrekke, hovedsakelig for å hjelpe dem med å forstå hva folk sier om dem på nettet. Forskere og programvareutviklere har brukt Reddit-data til å studere nettatferd og lage tilleggsprogrammer for plattformen. I det siste har Reddit vurdert å selge data for å hjelpe algoritmiske tradere på jakt etter en fordel på Wall Street.

 

Lisensiering for AI-relaterte formål er et nyere forretningsområde, som Reddit lanserte etter at det ble klart at samtalene de er vertskap for, bidro til å trene opp AI-modellene bak chatbots som ChatGPT og Gemini. I juli i fjor innførte Reddit avgifter for å få tilgang til brukernes innlegg og kommentarer i stor skala, og mente at innholdet ikke burde plyndres gratis.

 

Det førte til at et økosystem av gratisapper og tilleggsprogrammer for å lese eller forbedre Reddit ble stengt ned. Noen brukere gjorde opprør og stengte deler av Reddit i flere dager. Potensialet for ytterligere brukerprotester var en av de største risikoene selskapet opplyste potensielle investorer om i forkant av børsdebuten neste torsdag – inntil FTC-brevet kom.