Home / Featured  / En ny beregningsteknikk kan gjøre det enklere å utvikle nyttige proteiner

En ny beregningsteknikk kan gjøre det enklere å utvikle nyttige proteiner

For å konstruere proteiner med nyttige funksjoner begynner forskere vanligvis med et naturlig protein som har en ønsket funksjon, for eksempel å avgi fluorescerende lys, og utsetter det for mange runder med tilfeldige mutasjoner som til slutt genererer en optimalisert versjon av proteinet.

 

Denne prosessen har resultert i optimaliserte versjoner av mange viktige proteiner, blant annet grønt fluorescerende protein (GFP). For andre proteiner har det imidlertid vist seg vanskelig å generere en optimalisert versjon. MIT-forskere har nå utviklet en beregningsmetode som gjør det enklere å forutsi mutasjoner som vil føre til bedre proteiner, basert på en relativt liten mengde data.

 

Ved hjelp av denne modellen genererte forskerne proteiner med mutasjoner som ble spådd å føre til forbedrede versjoner av GFP og et protein fra adeno-assosiert virus (AAV), som brukes til å levere DNA til genterapi. De håper at dette også kan brukes til å utvikle flere verktøy for nevrovitenskapelig forskning og medisinske anvendelser.

 

“Proteindesign er et vanskelig problem fordi kartleggingen fra DNA-sekvens til proteinstruktur og -funksjon er svært kompleks. Det kan finnes et fantastisk protein 10 endringer unna i sekvensen, men hver mellomliggende endring kan tilsvare et protein som ikke fungerer. Det er som å prøve å finne veien til elvebassenget i en fjellkjede, når det er høye topper på veien som blokkerer utsikten. Ila Fiete, professor i hjerne- og kognitive vitenskaper ved MIT, medlem av MITs McGovern Institute for Brain Research, direktør for K. Lisa Yang Integrative Computational Neuroscience Center og en av hovedforfatterne av studien, sier at dette er et forsøk på å gjøre det lettere å finne elveleiet.

 

Regina Barzilay, School of Engineering Distinguished Professor for AI and Health ved MIT, og Tommi Jaakkola, Thomas Siebel Professor of Electrical Engineering and Computer Science ved MIT, er også seniorforfattere av en åpen artikkel om arbeidet, som vil bli presentert på International Conference on Learning Representations i mai. MIT-studentene Andrew Kirjner og Jason Yim er hovedforfatterne av studien. Andre forfattere er Shahar Bracha, postdoktor ved MIT, og Raman Samusevich, doktorgradsstudent ved Tsjekkias tekniske universitet.

 

Optimalisering av proteiner

 

Mange naturlig forekommende proteiner har funksjoner som kan gjøre dem nyttige for forskning eller medisinske anvendelser, men de trenger litt ekstra ingeniørarbeid for å optimaliseres. I denne studien var forskerne opprinnelig interessert i å utvikle proteiner som kunne brukes som spenningsindikatorer i levende celler. Disse proteinene, som produseres av enkelte bakterier og alger, avgir fluorescerende lys når et elektrisk potensial detekteres. Hvis slike proteiner utvikles for bruk i pattedyrceller, kan forskerne måle nevronaktivitet uten å bruke elektroder.

 

Selv om flere tiår med forskning har gått med til å utvikle disse proteinene slik at de produserer et sterkere fluorescerende signal på en raskere tidsskala, har de ikke blitt effektive nok til at de kan brukes i stor skala. Bracha, som jobber i Edward Boydens laboratorium ved McGovern Institute, tok kontakt med Fietes laboratorium for å høre om de kunne samarbeide om en beregningsmetode som kunne bidra til å fremskynde prosessen med å optimalisere proteinene.

 

“Dette arbeidet er et eksempel på den menneskelige serendipiteten som kjennetegner så mange vitenskapelige oppdagelser”, sier Fiete. “Det sprang ut av Yang Tan Collective-retreatet, et vitenskapelig møte mellom forskere fra flere ulike sentre ved MIT med forskjellige oppgaver som ble forent av den felles støtten fra K. Lisa Yang. Vi fant ut at noen av interessene og verktøyene våre innen modellering av hvordan hjernen lærer og optimaliserer, kunne brukes på et helt annet område, nemlig proteindesign, slik det praktiseres i Boyden-laboratoriet.”

 

For et gitt protein som forskere ønsker å optimalisere, finnes det et nesten uendelig antall mulige sekvenser som kan genereres ved å bytte ut forskjellige aminosyrer på hvert punkt i sekvensen. Med så mange mulige varianter er det umulig å teste alle eksperimentelt, så forskerne har tatt i bruk beregningsmodellering for å prøve å forutsi hvilke som vil fungere best.

 

I denne studien forsøkte forskerne å overvinne disse utfordringene ved å bruke data fra GFP til å utvikle og teste en beregningsmodell som kunne forutsi bedre versjoner av proteinet.

 

De begynte med å trene opp en type modell, et såkalt convolutional neural network (CNN), på eksperimentelle data bestående av GFP-sekvenser og deres lysstyrke – egenskapen de ønsket å optimalisere.

 

Modellen var i stand til å skape et “fitnesslandskap” – et tredimensjonalt kart som viser fitness for et gitt protein og hvor mye det skiller seg fra den opprinnelige sekvensen – basert på en relativt liten mengde eksperimentelle data (fra ca. 1000 varianter av GFP).

 

Disse landskapene inneholder topper som representerer mer egnede proteiner, og daler som representerer mindre egnede proteiner. Det kan være vanskelig å forutsi hvilken vei et protein må følge for å nå toppene i fitness, fordi et protein ofte må gjennomgå en mutasjon som gjør det mindre fit før det når en nærliggende topp med høyere fitness. For å løse dette problemet brukte forskerne en eksisterende beregningsteknikk for å “glatte ut” fitness-landskapet.

 

Når disse små ujevnhetene i landskapet var jevnet ut, trente forskerne CNN-modellen på nytt og fant ut at den lettere kunne nå høyere fitness-topper. Modellen var i stand til å forutsi optimaliserte GFP-sekvenser som hadde så mange som sju forskjellige aminosyrer fra proteinsekvensen de startet med, og de beste av disse proteinene ble estimert til å være omtrent 2,5 ganger bedre egnet enn originalen.

 

“Når vi har dette landskapet som representerer det modellen tror er i nærheten, glatter vi det ut og trener modellen på den glattere versjonen av landskapet”, sier Kirjner. “Nå har vi en jevn sti fra startpunktet til toppen, som modellen nå kan nå ved å gjøre små forbedringer iterativt. Det samme er ofte umulig for landskap som ikke er utjevnet.”

 

Proof-of-concept

 

Forskerne viste også at denne tilnærmingen fungerte godt til å identifisere nye sekvenser for viruskapsidet til adeno-assosiert virus (AAV), en virusvektor som ofte brukes til å levere DNA. I dette tilfellet optimaliserte de kapsidet med tanke på dets evne til å pakke inn en DNA-nyttelast.

 

“Vi brukte GFP og AAV som et proof-of-concept for å vise at dette er en metode som fungerer på datasett som er svært godt karakterisert, og derfor bør den kunne brukes på andre proteinutviklingsproblemer”, sier Bracha.

 

Forskerne planlegger nå å bruke denne beregningsteknikken på data som Bracha har generert om spenningsindikatorproteiner.

 

“Dusinvis av laboratorier har jobbet med dette i to tiår, og det finnes fortsatt ikke noe bedre”, sier hun. “Håpet er at vi nå, med et mindre datasett, kan trene opp en modell in silico og lage prediksjoner som kan være bedre enn de siste to tiårene med manuell testing.”

 

Forskningen ble delvis finansiert av U.S. National Science Foundation, konsortiet Machine Learning for Pharmaceutical Discovery and Synthesis, Abdul Latif Jameel Clinic for Machine Learning in Health, DTRA Discovery of Medical Countermeasures Against New and Emerging threats-programmet, DARPA Accelerated Molecular Discovery-programmet, Sanofi Computational Antibody Design-stipendet, U. US Office of Naval Research, Howard Hughes Medical Institute, National Institutes of Health, K. Lisa Yang ICoN Center og K. Lisa Yang and Hock E. Tan Center for Molecular Therapeutics ved MIT.