AI otkriva početak važnog jezičnog milestona za djecu

Znanost o jeziku i lingvistici može pomoći u unapređenju našeg razumijevanja ljudskog uma i ponašanja. Novo istraživanje objavljeno u Proceedings of the National Academy of Science of the United States of America (PNAS) od strane istraživača sa Sveučilišta u Chicagu koristi umjetničku inteligenciju (AI) kako bi odredilo vrijeme kada djeca dosegnu važnu jezičnu prekretnicu: kada djeca počnu koristiti jezično pravilo kako bi stvorila nešto novo što prije nisu čula.

“Težak problem u opisivanju jezične akvizicije je znati kada djeca prelaze izvan onoga što su čula i počinju proizvoditi vlastite originalne, strukturirane izraze – to jest, kada dosegnu jezičnu produktivnost, obilježje ljudskog jezika”, napisala je koautorka studije, profesorica psihologije sa Sveučilišta u Chicagu, Susan Goldin-Meadow, PhD, zajedno s koautorima Raquel Alhama, PhD, Ruthe Foushee, PhD, Allyson Ettinger, PhD, Afra Alishahi, PhD i Dan Byrne.

Kada djeca prelaze iznad ponavljanja onoga što su čula i počinju stvarati vlastite originalne, strukturirane izraze? Drugim riječima, u kojem trenutku djeca dosežu jezičnu produktivnost? Ovo je izazovno pitanje koje je teško znanstveno odgovoriti jer zahtijeva poznavanje svih izgovorenih rečenica koje je dijete čulo.

Akvizicija jezika je proces kroz koji ljudi stječu sposobnost razumijevanja i proizvodnje jezika, dok je jezična produktivnost sposobnost stvaranja i razumijevanja neograničenog broja izraza od ograničenog broja sastavnih dijelova i pravila. Lingvistika obuhvaća podpolja kao što su fonetika (znanstvena disciplina koja proučava zvukove govora), fonologija (znanost o zvučnim sustavima jezika), morfologija (znanost o strukturi riječi), sintaksa (proučavanje građe jezičnih jedinica koje premašuju jednu riječ) i semantika (proučavanje značenja). Lingvistika se također dijeli na psiholingvistiku (proučavanje obrade jezika u umu), neurolingvistiku (proučavanje kako mozak kodira jezik), sociolingvistiku (proučavanje jezika i društva), povijesnu lingvistiku (proučavanje kako jezik evoluira kroz vrijeme) i računalnu lingvistiku (proučavanje govora i jezika koristeći primijenjenu računalnu znanost).

Kako bi riješili ovaj problem, istraživači su koristili opsežnu stvarnu ponašajnu bazu podataka prikupljenu tijekom dužeg vremenskog razdoblja i sofisticirani AI model za analizu podataka.

Podaci koji su korišteni uključuju transkripte više od milijun spontanih izjava tijekom 90-minutnih interakcija između 64 djece koja uče engleski jezik i njihovih roditelja kod kuće, prikupljenih svakih četiri mjeseca od 14. do 58. mjeseca života, a podaci su prikupljeni u prethodnoj studiji o razvoju jezika koju je provela Goldin-Meadow i suradnici, objavljenoj 2014. godine u časopisu American Psychologist Američke psihološke udruge.

Iz ove ogromne baze podataka, tim je želio koristiti računalne modele kako bi odredio početak i razvojne putanje kada su djeca počela koristiti kombinacije determinatora i imenica na engleskom jeziku, poput “a book” i “the book”, i više.

“Naši podaci iz ponašanja pružili su nam bogatu sliku o tome kada djeca počinju produktivno kombinirati determinatore a i the s istom imenicom”, napisali su istraživači.

Računalni model koji su istraživači koristili bio je adaptacija AI modela transformatora BERT (Bidirectional Encoder Representations from Transformers) koji su razvili Alhama i suradnici u prethodnoj studiji, a uveden je godinu dana ranije na Proceedings of the 13th International Joint Conference on Natural Language Processing and the 3rd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics.

Transformerski modeli su duboki učni modeli koji su temelj prirodne obrade jezika (NLP), a prvi put su predstavljeni 2017. godine od strane istraživača Googlea u svom pionirskom radu, “Attention Is All You Need,” što je bila zabavna aluzija na klasičnu pjesmu The Beatlesa iz 1967. godine “All You Need Is Love”.

Ovi modeli su potaknuli meteorski uspon generativne AI. Primjeri transformerskih modela uključuju ChatGPT, Siri, Alexa, Google Translate, AlphaFold i druge.

Ono što čini transformerske modele inovativnima jest sposobnost razmatranja sekvencijalnih informacija putem pozicijskog kodiranja i mehanizma samopozornosti koji omogućuje AI-u da uči odnose među riječima.

Istraživački tim otkrio je da su djeca prosječno počela proizvoditi produktivne kombinacije determinatora i imenica u dobi od 30 mjeseci, što je otprilike devet mjeseci nakon što su izgovorila svoj prvi determinator.

“Spajanje ponašajnih opažanja i računalnog modeliranja pruža pristup koji se može koristiti za procjenu produktivnosti na bilo kojem jeziku, govorenom ili znakovnom”, napisali su istraživači.

Istraživači su dokazali da mogu računalno modelirati početak i putanje jezične produktivnosti. Sljedeći koraci, prema istraživačima, bit će korištenje istog modela za razumijevanje mogućih čimbenika koji dovode do različitog vremena i brzine produktivnosti u budućnosti.

Jezik povezuje lingvistiku s psihologijom, znanstvenom disciplinom o umu i ponašanju. On je temeljna komponenta kako komunikacije, tako i našeg razumijevanja svijeta. Primjena revolucionarne umjetničke inteligencije ubrzava razumijevanje razvoja onoga što nas čini jedinstveno ljudskima.