detekcija teksta: mogu li ljudi prepoznati strojno pisanje

Uspon moćnih konverzacijskih sustava temeljenih na umjetnoj inteligenciji – među kojima se ističe GPT tvrtke OpenAI – otvorio je praktično pitanje koje više nije rezervirano samo za laboratorije: može li prosječan čitatelj razlikovati tekst koji je napisao čovjek od teksta koji je generirao model? Odgovor nije trivijalan jer se GPT i srodni sustavi brzo poboljšavaju, a detekcija postaje sve teža. U akademskoj literaturi pojavilo se recenzirano istraživanje koje se ne oslanja na idealizirane zadatke, nego simulira uvjete nalik stvarnim situacijama u kojima čitatelj – bez posebnih alata – treba procijeniti kada tekst prestaje biti ljudski i kada započinje generiranje modela. Upravo takav pristup stavlja detekcija u središte rasprave o svakodnevnoj pismenosti u digitalnom dobu.

Početkom 2023. tim istraživača sa Sveučilišta u Pennsylvaniji predstavio je svoj rad na 37. konferenciji udruženja za napredak umjetne inteligencije. Time su uklopili rezultate u širi razgovor o tome koliko su veliki jezični modeli prirodni u izrazu i koliko daleko može ići detekcija kada čitatelj dobije samo tekst – bez metapodataka, bez tragova uređivanja, bez detektora. Iza akademskog pitanja stoji vrlo praktičan izazov: što ako lažne recenzije, vijesti ili prijave na natječaje postanu toliko uvjerljive da se detekcija oslanja isključivo na ljudski osjećaj za stil, strukturu i koherentnost?

Mogu li ljudi prepoznati tekst koji piše GPT ?

Autori rada upozoravaju da su modeli trenirani na enormnim korpusima i da oponašaju ton, rječnik i retoričke obrasce. Zbog toga, napadači – ili samo oportunisti – mogu pokušati plasirati automatski generiran sadržaj kao autentičan. U takvom okruženju detekcija nije tek akademska vježba, nego društveni filter protiv prijevara i dezinformacija. Koliko je taj filter propustan, ovisi o tome koliko brzo vježbamo vlastitu detekcija i koliko se oslanjamo na površne dojmove umjesto na sustavno čitanje.

Rizici nisu hipotetski. Ako se lažna vijest ili nerecenzirana tvrdnja proširi preko društvenih mreža, detekcija mora doći prije nego što šteta postane globalna – a to znači da sposobnost čitatelja da osjeti prijelaz iz ljudskog stila u strojni dobiva novu težinu. Slično je i s recenzijama proizvoda i usluga: gomila pozitivnih opisa može nastati za tren, dok se detekcija autentičnosti odgađa jer čitatelj ne zna na što obratiti pozornost.

Istodobno, rast upotrebe sustava temeljnih na velikim jezičnim modelima vidljiv je u obrazovanju i poslu. Jedno istraživanje koje je u ožujku 2023. objavila zaklada Walton Family Foundation pokazalo je da 51 posto nastavnika već koristi ChatGPT, a 33 posto učenika u dobi od 12 do 17 godina prijavilo je da ga je upotrijebilo za školu. U praksi to znači da detekcija više nije niša – postaje dio svakodnevnih pedagoških odluka, od procjene samostalnosti zadatka do prilagodbe kriterija ocjenjivanja.

Profesionalni svijet također se mijenja. U siječnju 2023. mreža Fishbowl (koju je 2021. preuzeo Glassdoor) anketirala je 4.500 zaposlenika te je 27 posto ispitanika reklo da već koristi ChatGPT za poslove. Najviše udjela bilo je u marketingu i tehnologiji, a među anketiranima su bili i zaposlenici tvrtki kao što su Google, Amazon, Meta, IBM, Edelman, McKinsey, JP Morgan i Nike. Kada automatizacija uđe u radne procese, detekcija dobiva dodatnu dimenziju – treba razlikovati pomoćni nacrt od gotovog teksta, a transparentnost postaje pravilo, ne iznimka.

Zašto je detekcija teška? Prije svega, jer se uvjerljivost generiranog teksta često oslanja na lokalnu koherentnost rečenice, a ljudski čitatelj prirodno nagrađuje tečnost. Ako je rečenica glatka, skloni smo joj povjerovati. No detekcija traži sporije čitanje i traženje signala na razini odlomka: jesu li tvrdnje potkrijepljene, postoji li suptilan tematski drift, ponavlja li se obrazac fraza, zadržava li se konzistentan glas? Kada bismo detekcija sveli samo na „zvuči li prirodno”, često bismo pogriješili, jer današnji modeli zvuče sve prirodnije.

Upravo zato je zanimljiv pristup istraživača iz Pennsylvanije. Umjesto grubog zadatka klasifikacije „čovjek ili stroj”, njih je zanimalo prepoznavanje točke prijelaza – gdje ljudski tekst prestaje, a strojni započinje. Takva detekcija oponaša stvarni tijek čitanja: nitko ne dobiva obavijest „odavde nadalje piše model”, nego mora čitanjem procijeniti kada se promijenio ton, gustoća informacija ili tipičan obrazac razvijanja misli.

Novo istraživanje testira ljudsku detekciju prijelaza

Kako bi odgovorili na pitanje, autori su osmislili eksperiment koji je okupio više od 240 sudionika – uglavnom studenata viših godina i diplomanada na kolegijima iz umjetne inteligencije na Sveučilištu u Pennsylvaniji. Njihov je zadatak bio provesti detekcija prijelaza u tekstu koji počinje kao ljudski napisani odlomak, a zatim, od određene rečenice nadalje, prelazi u nastavak što ga je generirao model. Umjesto binarnog odgovora, sudionici su birali točno onu rečenicu za koju misle da je granica, što detekcija čini osjetljivijom i informativnijom.

Autori su opisali pristup kao detekcija granice, a ne kao običnu klasifikaciju. Takav dizajn omogućuje usporedbu različitih generativnih sustava, ali i kvantificiranje rizika – primjerice, koliko „duboko” model može nastaviti tekst prije nego što prosječni čitatelj posumnja u izvor. U igri je i učenje: ako se sudionicima objasni na koje znakove trebaju paziti, detekcija se može poboljšati kroz praksu.

Za prikupljanje anotacija korištena je platforma u obliku igre pod nazivom RoFT – skraćeno od Real or Fake Text. Sudionici su čitali rečenicu po rečenicu, a svaki pokušaj približavanja stvarnoj granici donosio je bodove. Nakon odabira, tražilo se i obrazloženje odluke, što omogućuje dublju analizu: koje su heuristike korisne, a koje navode na pogrešku. Takva gamifikacija pretvara detekcija u disciplinu nalik lekturi – pažljivu, argumentiranu i ponovljivu.

Skupovi podataka u RoFT kombinirali su razne žanrove i epohe: 1,8 milijuna članaka iz lista The New York Times objavljenih tijekom 1987-2007, 963 govora američkih predsjednika iz razdoblja 1789-2015, kratke priče s kanala Reddit Writing Prompts te recepte iz skupa Recipe1M+. Za generiranje su korišteni modeli GPT2, GPT2-XL i CTRL. Raznolikost žanrova čini detekcija robusnijom: ono što je signal u informativnom članku ne mora biti signal u pripovijetci ili receptu.

Unutar više od 7,8 tisuća odigranih rundi prikupljeno je preko 42 tisuće anotacija. Nakon dodatne filtracije ostao je skup s više od 21 tisuće anotacija raspoređenih na 7 tisuća nastavaka. Rezultati su pokazali da su sudionici bili znatno uspješniji od pukog pogađanja: granicu su pogodili točno u 23,4 posto slučajeva, dok je nasumična šansa 10 posto. Kad je u rundi postojao barem jedan generirani segment, sudionici su kao graničnu rečenicu birali neku od generiranih u 72,3 posto pokušaja. Ti postoci ne znače da je detekcija laka, nego da je uz pažljivo čitanje moguće uhvatiti tragove koji izmiču površnom dojmu.

Analiza je otkrila i veliku varijabilnost vještine među sudionicima. Neki su u početku griješili, ali su se poboljšavali kroz dodatne upute i praksu – čitanje vodiča s primjerima pokazalo se najboljim prediktorom uspjeha. Učinak učenja ima praktičnu poruku: detekcija nije dar za odabrane, nego vještina koja se gradi, osobito kada se usmjeri pozornost na konkretne jezične i strukturne pokazatelje.

Kakvi su to pokazatelji? Jedan je suptilni tematski pomak. Generirani nastavci često zadržavaju ton, ali gube mikrologiku niza činjenica – rečenice djeluju uvjerljivo, ali ne napreduju prema jasnom zaključku. Drugi je obrazac pretjeranog uravnoteživanja tvrdnji – učestalo ublažavanje bez konkretnih razloga. Treći je ritam: ponavljanje fraza, jednolična duljina rečenica ili izbjegavanje specifičnih imenica. Naposljetku, ponekad je signal i pretjerana stručnost bez izvora. Kada se takvi signali zaredaju, detekcija postaje uvjerljivija, iako pojedinačno nijedan pokazatelj nije dovoljan.

Vrijedi istaknuti da je cijeli pristup osmišljen tako da se što više približi stvarnom čitateljskom iskustvu. U praksi, urednik ili nastavnik ne dobiva binarnu etiketu uz svaki odlomak. On čita i odlučuje – često pod vremenskim pritiskom – gdje je prirodno prelomiti povjerenje i zatražiti dodatne provjere. U takvom kontekstu detekcija granice pomaže: umjesto pitanja „je li cijeli tekst autentičan?”, fokus je na „odakle bismo trebali posumnjati?”.

Što to znači za nastavu? Ako učenik koristi pomoć sustava poput ChatGPT, nastavnik može unaprijed definirati pravila transparentnosti, ali i usmjeriti ocjenjivanje na procese – skice, izvore, iteracije – gdje detekcija ne ovisi samo o gotovom odlomku. Riječ je o poticanju odgovornog korištenja alata, ne o zabrani. U tom okviru detekcija postaje alat metakognicije: učenik uči kako razlikovati svoje rečenice od predložaka koje mu je predložio model te kako argumentirati odabire.

U novinarstvu i komunikacijama, urednici se suočavaju s navalom sadržaja. Detekcija stoga ide ruku pod ruku s verifikacijom: ako je ton previše generički, ako se citati ne mogu provjeriti ili ako su tvrdnje općenite, urednik traži izvorne dokumente i svjedočenja. Ljudsko čitanje i urednička procedura – zajedno – čine dvostupanjski štit: prvo detekcija signala u samom tekstu, zatim provjera izvan teksta.

U poslovnom kontekstu, menadžeri se pitaju kako pravedno vrednovati rad kad su alati sveprisutni. Jedan pristup jest jasno odvojiti faze: istraživanje i raspon ideja mogu uključivati nacrte generirane modelom, dok finalne odluke, procjene rizika i formalne izjave traže autorstvo i odgovornost čovjeka. U tom okviru detekcija služi kao mehanizam kontrole kvalitete – prepoznati gdje je tekst ostao na razini „dobrog nacrta” i gdje ga je potrebno produbiti ljudskim znanjem ili iskustvom.

Ograničenja postoje. Detektori temeljeni na strojnom učenju često rade poput „crnih kutija” i mogu biti pristrani prema duljini, jeziku ili tematici. Stoga je korisno osloniti se na ljudsku detekcija kao prvi korak, osobito kada je u pitanju sadržaj s visokim ulozima. Međutim, ljudska detekcija također je osjetljiva na očekivanja i potvrđivanje vlastitih pretpostavki. Zbog toga su transparentna pravila i dokumentiranje postupka čitanja – bilješke uz tekst, pitanja, provjere – jednako važni kao i sam osjećaj „nešto ovdje ne štima”.

Zanimljivo je i kako se vještina prenosi. U spomenutom istraživanju, sudionici su napredovali kad su dobili sažete smjernice s primjerima. Iz toga slijedi praktična preporuka: želimo li ojačati detekcija u timu ili razredu, napravimo kratki vodič s tipičnim signalima, stvarnim primjerima i protuprimjerima. Povratna informacija nakon pogrešnih procjena – zašto je granica bila rečenicu ranije ili kasnije – ubrzava učenje jer povezuje intuiciju s konkretnim obrascima.

Što je s višeglasjem i stilom? Ljudi prirodno pišu s nesavršenostima: upadi u govor, idiomi, ritmičke oscilacije. Generirani tekst često je „previše uredan”, uz dojam besprijekorne korektnosti. Detekcija tu može iskoristiti „pukotine” u savršenstvu – primjerice, rečenice koje zvuče kao rezime priručnika, a ne kao životno iskustvo. Ipak, treba paziti na predrasude: i ljudi pišu „manualno”, a neki žanrovi traže standardizirane formule. Detekcija stoga nije lov na greške, nego pažnja na odnos između oblika i namjene.

Pomoći može i provjera dosljednosti detalja. Generirani nastavci ponekad uvode pojmove koji nisu ranije motivirani ili ne prate prethodno postavljene parametre (mjesto, vrijeme, uloge). Kada takva nedosljednost prođe neopaženo, čitatelj lako prihvati glatku površinu. Kada je osvijestimo, detekcija dobiva uporište: postavljamo pitanja „tko, što, kada, gdje, zašto” i provjeravamo drži li se tekst vlastitih odgovora.

U obrazloženjima sudionika eksperimenata često se pojavljuju indikatori poput preopćenitih fraza („u suvremenom društvu…”, „važno je napomenuti…”) ili naglih promjena registra. Ti tragovi nisu sami po sebi presuda – i ljudi ih koriste – ali kada se nagomilaju, detekcija postaje uvjerljivija. Slično vrijedi i za reference: generirani tekst nerijetko izbjegava konkretne izvore ili ostaje na razini „stručnjaci kažu”. Urednički zahtjev za navodima tu je najbolji saveznik detekcija.

Vrijedno je naglasiti i praktičnu ekonomiju pažnje. U stvarnom radu nitko nema vremena analizirati svaki tekst na razini mikroskopije. Zato je korisno uvesti kućna pravila: koji prag riječi ili vrsta dokumenta zahtijeva dublje čitanje, kada se traži bilježenje izvora, kada je potrebno dopunsko usmeno obrazloženje. Kada takva pravila postanu rutina, detekcija se ugrađuje u proces umjesto da ovisi o povremenoj sumnji.

Kada detekcija zakaže – a povremeno hoće – sljedeći je korak smanjenje rizika. U nastavi to može značiti zadatke koji zahtijevaju osobne primjere ili praktične radnje. U novinarstvu to znači dodatne krugove verifikacije izvan teksta. U poslovanju to znači „četiri oka” za osjetljive dokumente i zapis o autorstvu. Čak i kada ne možemo točno odrediti granicu, možemo ograničiti posljedice pogreške.

Spomenuto istraživanje donosi i još jednu, više filozofsku pouku: detekcija nas podsjeća da je pisanje – ljudsko pisanje – dijalog između iskustva i jezika. Modeli mogu proizvesti rečenice koje glatko teku, ali nemaju sjećanja, namjere ni odgovornost. Kada se čitatelj sjeti postaviti vrlo konkretno pitanje („Kako znamo da je to istina? Koji je izvor? Što bi bilo suprotno?”), detekcija se oslanja na kriterije koji nadilaze stil i ulazi u domenu opravdavanja tvrdnji.

U konačnici, brojke iz eksperimenta ne treba čitati kao plafon ljudskih mogućnosti. One pokazuju da je i bez specijaliziranih alata moguće ostvariti smislen učinak, a uz upute i praksu taj se učinak povećava. Ako znamo što tražimo, detekcija postaje naučiva, prenosiva i korisna u različitim ulogama – od učionice do redakcije i ureda.