Două grupuri au anunțat noi modele generative puternice care pot proiecta noi proteine la cerere, neȋntâlnite în natură.
Explozia modelelor AI text-to-image, cum ar fi DALL-E 2 de la OpenAI (programe antrenate pentru a genera imagini pentru aproape orice se cere) a generat valuri prin industriile creative, de la modă la realizarea de filme, oferind imagini ciudate și minunate la cerere.
Aceeași tehnologie din spatele acestor programe este, de asemenea, răspândită în laboratoarele de biotehnologie, care au început să folosească acest tip de AI generativă, cunoscut sub numele de model de difuzie, pentru a evoca modele pentru noi tipuri de proteine niciodată văzute în natură.
Astăzi, două laboratoare au anunțat separat programe care utilizează modele de difuzie pentru a genera modele pentru proteine noi cu mai multă precizie decât oricând.
Generate Biomedicines, un start-up din Boston, a dezvăluit un program numit Chroma, pe care compania îl descrie drept „DALL-E 2 al biologiei”.
În același timp, o echipă de la Universitatea din Washington condusă de biologul David Baker a construit un program similar numit „RoseTTAFold Diffusion”.
Într-o lucrare de pretipărire postată online, Baker și colegii săi arată că modelul lor poate genera modele precise pentru proteine noi care pot fi apoi aduse la viață în laborator.
„Generăm proteine fără nici o asemănare cu cele existente”, spune Brian Trippe, unul dintre co-dezvoltatorii RoseTTAFold.
Acești generatori de proteine pot fi direcționați să producă modele pentru proteine cu proprietăți specifice, cum ar fi forma, dimensiunea sau funcția. De fapt, acest lucru face posibilă crearea de noi proteine care pot face anumite sarcini la cerere.
Cercetătorii speră că acest lucru va duce în cele din urmă la dezvoltarea unor medicamente noi și mai eficiente.
„Putem descoperi în câteva minute ce a făcut evoluția în milioane de ani”, spune Gevorg Grigoryan, CTO al Generate Biomedicines.
„Ceea ce este notabil la această muncă este generarea de proteine în funcție de constrângerile dorite”, spune Ava Amini, biofizician la Microsoft Research din Cambridge, Massachusetts.
Proteinele sunt elementele fundamentale ale sistemelor vii. La animale, ele digeră alimentele, contractă mușchii, detectează lumina, stimulează sistemul imunitar și multe altele.
Proteinele sunt astfel ținte principale pentru medicamente şi multe dintre cele mai noi medicamente de astăzi se bazează pe proteine.
„Natura folosește proteine pentru practic orice”, spune Grigoryan. „Promisiunea pe care o oferă pentru intervențiile terapeutice este cu adevărat imensă.” a adăugat el.
Dar designerii de medicamente trebuie să se bazeze în prezent pe o listă de ingrediente formată din proteine naturale. Scopul generării de proteine este de a extinde această listă cu un număr aproape infinit de produse proiectate de computer.
Tehnicile de calcul pentru proiectarea proteinelor nu sunt noi. Dar abordările anterioare au fost lente și nu excelente în proiectarea proteinelor mari sau a complexelor proteice (mașini moleculare formate din mai multe proteine cuplate împreună) şi astfel de proteine sunt adesea cruciale pentru tratarea bolilor.
Cele două programe anunțate nu sunt, de asemenea, prima utilizare a modelelor de difuzie pentru generarea de proteine. Un numar de studii din ultimele luni de la Amini și alții au arătat că modelele de difuzie sunt o tehnică promițătoare, dar acestea erau doar prototipuri doveditoare de concept.
Chroma și RoseTTAFold Diffusion se bazează pe această lucrare și sunt primele programe cu drepturi depline care pot produce modele precise pentru o mare varietate de proteine.
Namrata Anand, care a co-dezvoltat unul dintre primele modele de difuzie pentru generarea de proteine în mai 2022, consideră că marea semnificație a Chroma și RoseTTAFold Diffusion este că au luat tehnica și au supradimensionat-o, antrenându-se pe mai multe date și mai multe computere.
„Ar putea fi corect să spunem că acesta seamănă mai mult cu DALL-E din cauza modului în care au extins lucrurile”, spune ea.
Modelele de difuzie sunt rețele neuronale antrenate pentru a elimina „zgomotul” (perturbații aleatorii adăugate datelor) din intrarea lor. Plecând de la o imagine aleatorie de pixeli, un model de difuzie va încerca să-l transforme într-o imagine recunoscută. În Chroma „zgomotul” este adăugat prin desfacerea lanțurilor de aminoacizi din care este făcută o proteină.
Având în vedere un grup aleatoriu de aceste lanțuri, Chroma încearcă să le combine pentru a forma o proteină. Ghidat de constrângerile specificate cu privire la cum ar trebui să arate rezultatul, Chroma poate genera proteine noi cu proprietăți specifice.
Echipa lui Baker adoptă o abordare diferită, deși rezultatele finale sunt similare. Modelul său de difuzie începe cu o structură și mai amestecată. O altă diferență cheie este că RoseTTAFold Diffusion utilizează informații despre modul în care bucățile unei proteine se potrivesc împreună, furnizate de o rețea neuronală separată antrenată pentru a prezice structura proteinei (cum face AlphaFold de la DeepMind), aceasta ghidează procesul generativ general.
Generate Biomedicines și echipa lui Baker prezintă o gamă impresionantă de rezultate. Ele sunt capabile să genereze proteine cu mai multe grade de simetrie, inclusiv proteine care sunt circulare, triunghiulare sau hexagonale. Pentru a ilustra versatilitatea programului lor, Generate Biomedicines a generat proteine în formă de 26 de litere ale alfabetului latin și numerele de la 0 la 10. Ambele echipe pot genera, de asemenea, bucăți de proteine, potrivind noi părți cu structurile existente.
Majoritatea acestor structuri demonstrate nu ar servi la nimic în practică, dar deoarece funcția unei proteine este determinată de forma sa, a fi capabil să generezi diferite structuri la cerere este crucial.
Pentru a testa dacă Chroma a produs modele care ar putea fi realizate, Generate Biomedicines a preluat secvențele pentru unele dintre modelele sale (șirurile de aminoacizi care alcătuiesc proteina) și le-a rulat printr-un alt program AI. Ei au descoperit că 55% dintre ele ar putea să se plieze în structura generată de Chroma, ceea ce sugerează că acestea sunt modele pentru proteine viabile.
Echipa lui Baker a efectuat un test similar, dar Baker și colegii săi au mers mult mai departe decât Generate Biomedicines în evaluarea modelului lor. Ei au creat unele dintre modelele RoseTTAFold Diffusion în laboratorul lor (Generate Biomedicines spune că face și teste de laborator, dar nu este încă pregătită să împărtășească rezultatele).
„Aceasta este mai mult decât o dovadă a conceptului”, spune Trippe. „De fapt, folosim asta pentru a face proteine foarte grozave.” a adâugat el.
Pentru Baker, rezultatul principal este generarea unei noi proteine care se atașează de hormonul paratiroidian, care controlează nivelul de calciu din sânge.
„Practic, i-am dat modelulul hormonului și nimic altceva și i-am spus să facă o proteină care se poate leaga de el”, spune el.
Când au testat noua proteină în laborator, au descoperit că aceasta s-a atașat la hormon mai strâns decât orice ar fi putut fi generat folosind alte metode de calcul și chiar mai strâns decât medicamentele existente.
„A venit cu acest design de proteine din aer”, spune Baker.
Grigoryan recunoaște că inventarea de noi proteine este doar primul pas. Suntem o companie de medicamente, spune el.
„La sfârșitul zilei, ceea ce contează este dacă putem face medicamente care funcționează sau nu.”
Medicamentele pe bază de proteine trebuie să fie fabricate în număr mare, apoi testate în laborator și în cele din urmă pe oameni. Acest lucru poate dura ani, dar el crede că compania lui va găsi modalități de a accelera acești pași.
„Acum ne aflăm în mijlocul a ceea ce poate fi numit doar o revoluție tehnologică.” spune Baker.
Articol de Răzvan Lupu