Genomika i AI: predviđanje sljedeće varijante COVID-a

Prediktivna moć suvremenih metoda u biomedicini ubrzano raste, a kombinacija računalnih pristupa i laboratorijskih podataka sve češće prelazi iz teorije u operativne alate za javno zdravstvo. U tom kontekstu, genomika postaje središnji oslonac za praćenje promjena virusa i procjenu koji bi se sojevi mogli proširiti u idućem razdoblju.

Nedavno objavljeno istraživanje prikazuje kako se mogu povezati računalni modeli i analiza virusnih genoma kako bi se unaprijed uočile mutacije koje bi mogle postati dominantne. Naglasak nije na “pogađanju” pojedinačnih promjena, nego na sustavnom rangiranju linija prema njihovoj vjerojatnoj prilagodbenoj prednosti, pri čemu genomika daje materijalne dokaze o tome što se u populaciji virusa doista mijenja.

Može li AI i genomika predvidjeti sljedeću varijantu COVID-a?

Autori-istraživački tim iz Broad Institute pri MIT-u i Harvard-u, uz koautore s University of Massachusetts Medical School i drugih ustanova-polaze od obrasca koji je obilježio pandemiju: valove prijenosa često su pokretale nove varijante koje su postupno zamjenjivale starije. U takvom obrascu, rana detekcija potencijalno opasnih linija nameće se kao praktična potreba, a genomika je temeljni izvor signala za takvu detekciju.

Kako bi se taj cilj operacionalizirao, tim je razvio hijerarhijski Bayesov model nazvan PyR0, osmišljen za skalabilnu analitiku nad cjelokupnim javno dostupnim skupovima genoma virusa SARS-CoV-2. Ideja je u tome da se iz velikih količina sekvencijskih zapisa procijeni “fitnes” pojedinih linija, odnosno njihova relativna sposobnost širenja u odnosu na druge, pri čemu genomika omogućuje usporedbu mutacijskih obrazaca kroz vrijeme i prostor.

Metodološki, pristup je u potpunosti Bayesov. Za razliku od frekventističke linearne regresije koja se često oslanja na točkaste procjene, Bayesova linearna regresija parametre promatra kao raspodjele vjerojatnosti. Izlaz modela interpretira se kroz normalnu (Gaussovu) raspodjelu, a cilj nije pronaći jednu “najbolju” vrijednost parametara, nego posteriornu raspodjelu parametara s obzirom na promatrane podatke-što je posebno korisno kada genomika otkriva heterogenost podataka među regijama i vremenskim razdobljima.

U praksi to znači da se nesigurnost ne skriva, nego se kvantificira. Kada su uzorci neravnomjerno raspoređeni, kada se mijenjaju uvjeti testiranja ili kada se pojavljuju regionalni “džepovi” prijenosa, Bayesov okvir omogućuje da se procjene stabiliziraju hijerarhijom i “posudbom snage” među povezanim skupinama. Genomika pritom služi kao zajednički jezik kojim se uspoređuju linije, mutacije i geografska širenja bez oslanjanja na izolirane anegdotalne signale.

Kao provjeru korisnosti, autori navode da bi sustavno povijesno testiranje na ranijim podacima omogućilo ranije upozorenje i pomoglo u identifikaciji varijanti koje su kasnije postale predmetom zabrinutosti, kada bi se model rutinski primjenjivao na uzorke SARS-CoV-2. Takva tvrdnja je operativno važna jer implicira da genomika, uz adekvatnu analitiku, može prijeći iz retrospektivne analize u alat za pravovremenije javnozdravstvene odluke.

Model je prilagođen na 6,466,300 genomskih zapisa SARS-CoV-2 prikupljenih preko GISAID-a (Global Initiative on Sharing All Influenza Data). Kako bi se nosili s veličinom zadatka, autori su koristili stohastičku varijacijsku inferenciju za prilagodbu velikog modela. I uz taj pristup, problem je zahtijevao rješavanje optimizacijskog zadatka s više od 75 milijuna dimenzija, što ilustrira razinu računalne složenosti kada genomika uđe u razmjere globalnog nadzora.

Važan dio postupka bila je segmentacija uzoraka u klastere i procjena fitnesa po klasterima. Konkretno, autori su formirali 3,000 klastera iz 1544 linije prema sustavu PANGO te su fitnes linija modelirali odvojeno kroz 1,560 geografija. Ovakva konstrukcija omogućuje da se u obzir uzmu lokalne dinamike-primjerice, razlike u kontaktnoj strukturi, mjerama i sezonalnosti-dok genomika osigurava konzistentno mapiranje mutacija na linije neovisno o lokaciji.

U izvještaju rezultata autori navode da model ispravno zaključuje kako varijanta koju je Svjetska zdravstvena organizacija klasificirala kao Omicron, s PANGO oznakom BA.2, ima najviši fitnes do tada: 8.9 puta [95 posto interval pouzdanosti (CI) 8.6 do 9.2] viši od izvorne linije A, te da je takva procjena točno nagovijestila njezin rast u regijama u kojima je cirkulirala. Ovdje genomika služi kao empirijska podloga, a statistički okvir kao mehanizam za rangiranje rizika u realnom vremenu.

Interpretacija “fitnesa” u ovom kontekstu zahtijeva oprez. Fitnes je relativna mjera koja odražava promatranu sposobnost širenja u usporedbi s drugim linijama u istom kontekstu, a može biti pod utjecajem bioloških svojstava virusa i društvenih uvjeta. Upravo zato je važno što model razdvaja geografske jedinice i koristi hijerarhijsku strukturu-genomika daje signal o promjenama u virusu, dok model pokušava razlučiti koji signali koreliraju s bržim širenjem, uz eksplicitno navođenje nesigurnosti.

Autori ističu da se pristup može primijeniti na različite virusne fenotipove, kao i na praktički bilo koji skup virusnih genoma, pod uvjetom da postoje dovoljno bogati podaci i dosljedna anotacija. Time se naglašava prenosivost metodologije: genomika je disciplina koja se ne veže isključivo uz jedan virus, nego uz način prikupljanja i interpretacije genetskih podataka, a Bayesov pristup omogućuje da se na vrhu toga izgradi generalizirani “motor” za rano upozoravanje.

Jedna od ključnih operativnih vrijednosti je mogućnost da se novoizranjale linije uočavaju zajedno s mutacijama koje doprinose prenosivosti. Autori posebno napominju da se signal ne ograničava samo na protein Spike, nego se može proširiti i na druge virusne proteine. U javnozdravstvenoj praksi to znači da genomika ne služi samo za imenovanje varijanti, nego i za mapiranje potencijalnih mehanizama koji stoje iza njihove epidemiološke prednosti.

Takvo mapiranje može pomoći u prioritetizaciji: nisu sve nove linije jednako važne, niti svaka mutacija ima isti funkcionalni učinak. Kada se pojavi nova kombinacija mutacija, sustav može procijeniti njezinu vjerojatnu “konkurentnost” u odnosu na postojeće linije i izdvojiti one koje zaslužuju dodatno laboratorijsko ispitivanje ili pojačano praćenje. U tom procesu genomika daje granularnost-promjene na razini nukleotida-dok model pruža kompozitnu procjenu na razini linije i konteksta.

U pozadini cijele ideje stoji pretpostavka brze i standardizirane razmjene podataka. Autori naglašavaju vrijednost brzog dijeljenja genomskih podataka za javno zdravstvo. Bez redovitog priljeva sekvenci iz različitih zemljopisnih područja, modeli gube osjetljivost, a rani signali postaju kasni. Genomika je, u tom smislu, infrastruktura jednako koliko i znanost: kvaliteta predikcije ovisi o tome koliko su uzorci reprezentativni, pravodobni i usporedivi.

Jednako tako, postoje praktična ograničenja koja proizlaze iz načina uzorkovanja. Sekvenciranje često nije ravnomjerno raspoređeno; neka područja imaju visok kapacitet i učestalo uzorkovanje, dok druga imaju sporadične podatke. To može stvoriti prividne “skokove” u učestalosti linija koji odražavaju promjene u testiranju, a ne u stvarnom prijenosu. Bayesov okvir pomaže ublažiti takve artefakte, no genomika i dalje ostaje ovisna o ulaznim podacima i njihovoj pristranosti.

Tehnički gledano, modeliranje na 1,560 geografija i tisuće klastera zahtijeva preciznu definiciju jedinica analize. Geografija se može odnositi na države, regije ili druge administrativne cjeline, a svaka odluka mijenja razinu “šuma” i “signala”. Kada su jedinice pregrube, mogu se sakriti lokalni obrasci; kada su previše fine, nesigurnost raste. Upravo u tim kompromisima genomika dobiva dodatnu vrijednost jer omogućuje provjeru konzistentnosti mutacijskih obrazaca kroz granice i kroz vrijeme.

Važan aspekt je i interpretabilnost: javno zdravstvo traži opravdanja koja su razumljiva izvan statistike. Ako model izdvoji liniju kao visoko rizičnu, korisno je moći pokazati koje mutacije, u kojim proteinima i u kojim regijama doprinose procijenjenom rastu. Takva transparentnost olakšava komunikaciju s laboratorijima, epidemiolozima i donositeljima odluka. Genomika omogućuje da se ta komunikacija veže uz konkretne genetske promjene, a ne uz apstraktne ocjene.

U širem smislu, ova vrsta sustava može se shvatiti kao dopuna postojećim mehanizmima nadzora, a ne kao zamjena. Sekvenciranje, epidemiološki nadzor, serološke studije i klinički ishodi daju različite vrste informacija. Modeli mogu ubrzati signalizaciju i usmjeriti pažnju, ali i dalje je potrebno potvrditi biološki učinak mutacija te razumjeti kliničku relevantnost. Genomika je nužan, ali ne i dovoljan sloj za potpunu procjenu rizika.

Primjena na druge viruse, koju autori spominju, podrazumijeva dostupnost dovoljnih količina sekvenci i standardiziranih metapodataka. Ako postoje dugotrajne serije uzorkovanja i globalna suradnja na razmjeni podataka, isti koncept može poslužiti za praćenje evolucijskih “skokova” i u drugim patogenima. U takvim scenarijima genomika opet ima dvostruku ulogu-praćenje promjena i sidrenje analitike u provjerljive biološke činjenice.