Napredna umjetnička inteligencija predviđa aktivnost gena u ljudskim stanicama

Zdravlje ljudi može doživjeti veliki iskorak zahvaljujući računalnoj znanosti. Naime, modeli umjetničke inteligencije (AI) i strojno učenje pomažu razotkriti misterije ljudskog genoma s potencijalnim ciljem liječenja genetskih i kompleksnih bolesti. Ovaj tjedan znanstvenici sa Sveučilišta Columbia i njihovi suradnici objavili su recenzirani članak u časopisu Nature koji otkriva temeljni AI model sposoban predvidjeti aktivnost gena u različitim ljudskim stanicama.

Ekspresija gena je ključan proces unutar stanica kojim se genetske informacije pretvaraju u upotrebljive proizvode poput proteina koji su važni za razvoj, strukturu i funkciju organizama. To je proces koji pretvara genetske informacije zapisane u DNA u RNA i aminokiseline.

Za predviđanje ekspresije gena važno je uzeti u obzir transkripcijsku regulaciju. Kada transkripcijska regulacija ne funkcionira ispravno, javljaju se neprikladni obrasci ekspresije gena koji mogu rezultirati bolešću. Na primjer, jedno istraživanje od strane istraživača sa Sveučilišta Princeton pokazuje kako transkripcijska regulacija ima ključnu ulogu u napredovanju i metastazama tumora kod raka.

“U ovom istraživanju predstavljamo GET, napredni temeljni model specifično razvijen za razjašnjenje mehanizama koji upravljaju transkripcijskom regulacijom u širokom rasponu ljudskih stanica”, napisao je glavni autor Raul Rabadan, doktor znanosti, profesor na Odjelu za sustavnu biologiju, biomedicinsku informatiku i kirurgiju te direktor Programa za matematičku genomiku i Centra za topologiju evolucije i heterogenosti raka na Sveučilištu Columbia, zajedno s timom istraživačkih partnera.

U poljima molekularne biologije i genomike, posjedovanje prediktivnih sposobnosti za transkripcijsku regulaciju važno je jer ona igra vitalnu ulogu u kontroli ekspresije gena. Međutim, postojeći AI modeli transkripcije nemaju dovoljno robustnosti, prema istraživačima sa Sveučilišta Columbia i njihovim suradnicima.

“Računalni modeli transkripcije nemaju sposobnost generalizacije da bi točno izvodili predikcije za neviđene tipove stanica i uvjete”, napisali su istraživači.

U umjetničkoj inteligenciji, pojam “generalizacija” odnosi se na sposobnost AI algoritma da vrši predikcije na novim podacima na kojima prije nije bio treniran. Što je AI algoritam robusniji, to bolje može napraviti predikcije na novim, neviđenim podacima.

Rad sa Sveučilišta Columbia ističe da AI transformer model Enformer, kao i duboki konvolucijski mrežni modeli Basenji2 i Expecto, vrše predikcije za tipove stanica na temelju finog podešavanja, što znači da su dizajnirani za ograničenu primjenu i nemaju sposobnost generalizacije.

Kako riješiti ovaj izazov? Znanstvenici se oslanjaju na nedavne AI proboje s naprednim temeljnim modelima.

“S opsežnim predtreningom na širokim i raznolikim skupovima podataka, temeljni modeli pružaju generalizirano razumijevanje svojih trening podataka, na temelju kojih se mogu razviti specijalizirane prilagodbe za rješavanje specifičnih zadataka ili izazova”, napisali su istraživači.

U računalnoj znanosti, temeljni modeli AI su veliki, generativni duboki neuronski mrežni modeli koji se predtreniraju korištenjem ogromnih količina širokih, nelabeled podataka koji se mogu koristiti za razne zadatke, a ne samo za jednu svrhu.

“Nedavno su temeljni modeli poput GPT-4 i ESM-2 postali transformativni pristup”, napisali su autori studije.

OpenAI-ov GPT-4 je transformer-stil AI model koji može raditi s obradom slika i teksta (multimodalni) kao upitima za generiranje tekstualnih izlaza. Model Evolutionary Scale (ESM-2) koji je stvorio Meta Fundamental AI Research Protein Team (FAIR) je predtrenirani veliki jezični model za proteine.

Znanstvenici također ističu druge genomike istraživanja koja koriste AI temelje modele, kao što su generativni transformer za multi-omiku temeljen na podacima sekvenciranja jedne stanice koji je predtrenirani na podacima više od 33 milijuna stanica, kao i xTrimoscFoundation^α, transformer za analizu jedne stanice predtrenirani na više od 50 milijuna ljudskih podataka iz transkriptoma jedne stanice, i Geneformer, transformer model predtrenirani na otprilike 30 milijuna jednih stanica transkriptoma.

Što izdvaja ovu studiju od drugih, je da su znanstvenici sa Sveučilišta Columbia i njihovi suradnici svjesno trenirali svoj AI transformer model koristeći podatke iz normalnog tkiva, a ne oboljelih ljudskih stanica. GET algoritam je naučio značajke relevantne za predviđanje ekspresije gena koristeći ogromne količine podataka za treniranje koji su se sastojali od više od 1,3 milijuna ljudskih stanica.

Prema istraživačima, još uvijek nije stvoren AI temeljni model koji bi razumio dinamiku kromatina na transkripciji. Kromatin se sastoji od DNA i proteina koji čine strukture koje sadrže gene, tzv. kromosome koji se nalaze u jezgri stanica biljaka, životinja i ljudi, prema Nacionalnom institutu za istraživanje ljudskog genoma. Ljudski organizam ima 46 kromosoma raspoređenih u 23 para, a polovicu nasljeđujemo od oca, dok drugu polovicu nasljeđujemo od majke. Autosomalni kromosomi su parovi od 1 do 22, dok 23. par čini spolni kromosom koji određuje spol osobe na rođenju (XY za muški, XX za ženski). Kromosomi su važni jer nose nasljedne podatke s jedne generacije stanica na drugu.

“Oslanjajući se isključivo na podatke o dostupnosti kromatina i informacije o sekvencama, GET postiže eksperimentalnu točnost u predviđanju ekspresije gena, čak i za neviđene tipove stanica”, izvještavaju istraživači.

Znanstvenici su stvorili robusniji AI model za transkripciju koji je sposoban s visokom točnošću predvidjeti aktivnost gena u novim tipovima stanica koje prethodno nije vidio. Korištenjem GET-a, stvorili su javni katalog interakcija transkripcijskih faktora i regulacije gena s obzirom na specifičnost tipova stanica.

Eksperimentalno su u laboratoriju provjerili in silico predikcije GET-a na PAX5 genu, transkripcijskom faktoru koji je uključen u razvoj B limfocita (B stanica) koji se često mutira kod akutne limfoblastne leukemije B-preciznih stanica (B-ALL), što je čest pedijatrijski rak. B stanice stvaraju antitijela, tip proteina koji se veže za patogene poput virusa, parazita i bakterija, ili strane tvari kako bi ih neutralizirali.

“Korištenjem gena PAX5 kao studije slučaja, ilustrirali smo korisnost kataloga u identificiranju funkcionalnih varijanti u poremećenim domenama proteina koje je bilo teško istraživati”, zaključuju znanstvenici.

Uz ovaj proboj, istraživači sada imaju novi AI alat koji će pomoći u predviđanju aktivnosti gena u širokoj paleti različitih ljudskih stanica, što bi moglo ubrzati istraživanja genetskih poremećaja i kompleksnih bolesti poput neuroloških bolesti, razvojnih poremećaja, sindroma, autoimunih bolesti, metaboličkih bolesti, kardiovaskularnih bolesti i raka u nedaljoj budućnosti.