Smijeh je neverbalni vokalni izraz koji igra važnu ulogu u društvenim situacijama te često nadilazi kulturne granice – razumijemo ga čak i kada ne razumijemo jezik. U ljudskoj komunikaciji smijeh signalizira toplinu, olakšanje i pripadnost, a ujedno ublažava napetost i gradi povjerenje. Kada roboti dobiju mogućnost za smijeh, otvara se prostor za prirodniju suradnju čovjeka i stroja, u kojoj smijeh postaje signal da je razgovor ugodan i da je sugovornik zaista „tu“. Upravo zato znanstvenici sve ozbiljnije istražuju kako modelirati smijeh u interakciji čovjeka i robota – i to ne površno, nego u stvarnim dijaloškim situacijama.

Od ideje do sustava: kako se uči zajednički smijeh

Istraživački rad objavljen u časopisu Frontiers in Robotics and AI predstavio je sustav za generiranje zajedničkog smijeha koji omogućuje robotu da se nasmije sa sugovornikom u pravom trenutku i na odgovarajući način. Sustav je sastavljen od triju modela: detektora smijeha, prediktora zajedničkog smijeha i selektora tipa smijeha. Svaki je model treniran na podacima iz baze brzih razgovora čovjeka i robota, kako bi robot mogao procijeniti kada je smijeh prikladan te kakav smijeh – vedri ili društveni – najbolje odgovara situaciji. Autori naglašavaju da uvođenje smijeha u dijalog nije samo „zabavna“ funkcija, nego ključ za vjerodostojnije empatijsko ponašanje robota.

Roboti sa sposobnošću smijeha na pogon AI nisu šala

Zašto je smijeh toliko važan u dijalogu

Smijeh ima nekoliko funkcija: označava pozitivno raspoloženje, olakšava prijelaze između tema, ublažava pogreške i nespretnosti te zbližava sugovornike. U kontekstu robota, smijeh dodatno služi kao pokazatelj da sustav prati nijanse razgovora – primjerice ironiju ili igru – i da je sposoban reagirati izvan čisto informativne razmjene. Ako robot točno odabere trenutak i vrstu reakcije, smijeh pomaže da interakcija teče prirodnije, a korisnik dobiva dojam da ga sustav razumije. Taj dojam nije trivijalan: utječe na angažman, strpljenje i spremnost korisnika da dijeli informacije, što je presudno u obrazovanju, zdravstvu ili servisnoj podršci.

Podaci i platforma: ERICA kao sugovornica

Za prikupljanje podataka korišten je robot ERICA, napredni android koji je u ovoj studiji djelovao kao sugovornica. U bazi se nalaze podaci iz više od 80 brzih razgovora između muških studenata Sveučilišta u Kyotu i robota ERICA, pri čemu je ERICA bila daljinski upravljana od strane jedne od četiri amaterske glumice – one su se nalazile u drugoj prostoriji i govorile kroz robotov zvučnik. ERICA je osim govora imala i sposobnost prikladnih neverbalnih ponašanja, poput pogleda, gesta i klimanja glavom. Sudionici su se u prijateljskom razgovoru pokušavali upoznati tijekom razdoblja od 10-15 minuta, što je pružilo bogat kontekst u kojem se smijeh prirodno pojavljuje.

Ovakav dizajn omogućio je da se smijeh bilježi u dinamici bliskoj stvarnom životu: smijeh nije bio izoliran ni unaprijed skriptiran, nego je nastajao kao dio spontanog dijaloga. Takva prirodna okolina ključna je za učenje jer smijeh ne postoji u vakuumu – on ovisi o ritmu rečenica, pauzama, mikro-signalima glasa i kontaktu očima. Kada robot prepozna signal i reagira s mjerom, smijeh postaje alat koji povezuje, a ne tek zvučni efekt.

Tri modela – jedan cilj

Središte sustava čine tri komponente. Prva komponenta, detektor smijeha, služi za otkrivanje da je korisnik upravo proizveo smijeh. Druga komponenta, prediktor zajedničkog smijeha, odlučuje treba li se robot smijati zajedno s korisnikom u tom trenutku. Treća komponenta, selektor tipa smijeha, bira je li prikladniji vedri (mirthful) ili društveni smijeh. Ovakva podjela rada replicira način na koji ljudi nesvjesno obrađuju signale – najprije čujemo smijeh, zatim odlučimo hoćemo li ga podijeliti, a naposljetku biramo nijansu.

U treniranju modela autori su krenuli od prepoznavanja smijeha u zvučnom signalu. Pozitivni primjeri koje je detektor označio kao smijeh dodatno su označeni kao zajednički smijeh ako se ERICA pravodobno nasmijala nakon korisnika. Tako je nastalo više od 260 uzoraka zajedničkog smijeha. Ti su uzorci potom anotirani kao vedri (mirthful) ili društveni smijeh, a selektor tipa smijeha koristio je isti logistic model kao i prediktor zajedničkog smijeha. Time je uspostavljen konzistentan okvir odlučivanja.

Detekcija: kako čuti smijeh

Detektor smijeha temelji se na rekurentnoj mreži – arhitekturi koja je posebno prikladna za podatke u vremenskom slijedu. Smijeh se sastoji od kratkih „eksplozija“ glasa i ritmičkih obrazaca koji se bolje hvataju kada model bilježi ovisnosti u nizu. Prvi zadatak detektora jest razlučiti smijeh od sličnih zvukova kao što su uzdasi, tiha verbalna potvrda ili kratak izdisaj prije govora. Kada detektor pouzdano označi segment kao smijeh, sustav prelazi na sljedeće pitanje: je li trenutak povoljan da se robot uključi u zajednički smijeh.

Ključna je točka tempiranje – smijeh je izrazito osjetljiv na vrijeme. Ako robot reagira prekasno, smijeh zvuči prisilno; ako reagira prerano, može prekinuti sugovornika. Sustav je zato kalibriran tako da traži „prozor“ u kojem je zajednički smijeh najprirodniji. U tom prozoru prediktor zajedničkog smijeha izračunava vjerojatnost da robot treba reagirati. Kada je vjerojatnost iznad praga, slijedi odabir vrste smijeha.

Odabir vrste: vedri ili društveni smijeh

Vedri smijeh obično proizlazi iz pozitivnog raspoloženja i odnosi se na sam dijalog – primjerice, kada je nešto doista duhovito. Društveni smijeh češći je kao mazivo razgovora: popunjava tišine, ublažava nespretnost i pokazuje pristojnost i naklonost iako stvarni humor možda nije prisutan. Selektor tipa smijeha koristi obilježja glasa i konteksta kako bi odlučio hoće li ERICA proizvesti topliji, vedriji ton ili diskretniji, društveni signal. Odabir je važan jer vedri smijeh bez povoda može djelovati neprimjereno, dok pretjerano društveni smijeh ostavlja dojam odstojanja.

Kako se trenira: od uzorka do ponašanja

Podaci iz razgovora strukturirani su tako da detektor najprije izdvaja sve slučajeve u kojima je korisnik proizveo smijeh. Ti slučajevi prolaze kroz dodatno označavanje: ako se ERICA na vrijeme nasmijala, označeni su kao zajednički smijeh. U konačnici je prikupljeno više od 260 takvih zajedničkih epizoda. Na njima su prediktor i selektor učili prepoznati kako zvuči trenutak u kojem se smijeh „prenosi“ s čovjeka na robota i koji tip smijeha se u tim uvjetima najčešće pojavljuje. Za potrebe odlučivanja korišten je konzistentan pristup temeljen na logistic model algoritmu, što je omogućilo jasnu interpretaciju izlaza.

Važno je naglasiti da su svi modeli trenirani na podacima iz istog konteksta, što smanjuje nepodudarnosti između detekcije i reakcije. Kada je kontekst stabilan, robot lakše održava ritam razgovora. Tako se smijeh ne pojavljuje kao „efekt“, nego kao dio obrasca ponašanja – jednako kao kod ljudi.

Implementacija u sustav pažljivog slušanja

Autori su ugradili cijeli sustav zajedničkog smijeha u dijaloški sustav pažljivog slušanja, a zatim proveli eksperiment slušanja razgovora. Usporedili su tri postavke: naivnu varijantu bez smijeha, reaktivnu varijantu koja se uvijek smije društvenim smijehom i predloženi sustav koji odlučuje hoće li se smijati te bira tip smijeha. Prema rezultatima procjena, predloženi sustav poboljšao je dojam sustava – osobito percepciju empatije – u odnosu na usporedne varijante. Drugim riječima, kada robot pravilno „čuje“ i usklađeno podijeli smijeh, korisnici osjećaju veću prisutnost i razumijevanje.

Smijeh kao dizajnerski alat

U dizajnu interakcije čovjeka i robota smijeh se može shvatiti kao kontrola intenziteta bliskosti. Ako je smijeh prečest, interakcija postaje karikaturalna; ako ga uopće nema, razgovor djeluje hladno i utilitarno. Optimalna razina nalazi se između ta dva ekstrema. Sustav s tri modela omogućuje precizno doziranje: detektor osigurava da robot reagira samo kada stvarno postoji smijeh, prediktor brine o tome da zajednički smijeh bude biran samo u najprikladnijim trenucima, a selektor fine-tunira tonalitet. Time smijeh postaje parametar koji se može prilagoditi različitim kontekstima – od edukacije do podrške korisnicima ili društvenih robotika.

Dodatna prednost pristupa je modularnost. Kako se poboljšava prepoznavanje govora, emocija i neverbalnih signala, modul detekcije smijeha može se nadograditi bez promjene logike odlučivanja. Slično tome, selektor tipa smijeha može se obogatiti nijansama – od suzdržanog osmijeha do iskrenog kikota – sve dok prediktor održava pravilan ritam. Takva arhitektura podsjeća na načela iz machine learning prakse: slojevi rješavaju specifične zadatke, a zajedno čine cjelinu koja je fleksibilna i skalabilna.

Granice i oprez u uporabi

Iako smijeh poboljšava doživljaj, on ne smije prikrivati ograničenja sustava. Ako robot proizvodi smijeh bez razumijevanja sadržaja, korisnik bi mogao steći pogrešan dojam kompetencije. Stoga je ključno uvježbati ne samo detekciju već i procjenu prikladnosti: ponekad je potrebno suzdržati se od reakcije, primjerice u ozbiljnim ili osjetljivim temama. Sustav zato obuhvaća korak u kojem se procjenjuje treba li uopće započeti zajednički smijeh, a tek potom koji tip odabrati. Takav redoslijed smanjuje rizik od neprimjerenih signala i čuva povjerenje korisnika.

Još jedna granica tiče se generalizacije. Podaci su prikupljeni u specifičnom okruženju s robotom ERICA i određenim profilom sudionika. Iako su razgovori brojni i raznoliki, svako novo okruženje – primjerice zdravstvena ordinacija ili školska učionica – ima svoje norme. Zato će buduće implementacije trebati dodatne podatke i kalibracije. No temelj ostaje isti: detektirati smijeh, odlučiti o zajedničkom smijehu i odabrati odgovarajući tip.

Kako smijeh podržava empatiju

U procjenama korisnika upravo je empatija izdvojena kao važna dimenzija poboljšanja. To nije iznenađenje: smijeh nosi informaciju o tome da je sugovornik čuo, razumio i podijelio emocionalni ton trenutka. Kada robot uskladi svoj smijeh s korisnikovim, nastaje kratka „petlja“ potvrde. Čak i ako robot ne razumije šalu na razini semantike, precizno tempiran i prikladan smijeh dovoljno je jak signal da razgovor teče bolje. U tom smislu smijeh djeluje kao prečac do toplije komunikacije – učinkovitiji od duljih, formalnih potvrda.

Važno je napomenuti da empatija u ovom kontekstu ne znači lažno predstavljanje – nego usklađivanje signala. Sustav ne obećava razumijevanje svijeta na razini čovjeka, već pruža alat da se vokalna i neverbalna dinamika sinkroniziraju. Tako se smijeh pretvara u most između računalne obrade i ljudske osjetljivosti.

Uloga neverbalnih elemenata

Uz smijeh, ERICA je raspolagala pogledom, gestama i kimanjem. Ta koordinacija je presudna: smijeh koji je izoliran od pogleda i gesta može zvučati „prazno“. Kada robot pogleda sugovornika, blago se nagne naprijed i kimne, smijeh dobiva prirodniji okvir. U praksi to znači da sustavi koji generiraju smijeh trebaju raditi ruku pod ruku s modulima koji upravljaju pogledom i pokretima. Ritam smijeha usklađuje se s ritmom pokreta – baš kao kod ljudi.

Što se točno dogodilo u eksperimentu

Autori su nakon ugradnje sustava u dijaloški okvir proveli eksperiment slušanja razgovora. Promatrači su uspoređivali nekoliko verzija: bez smijeha, s uvijek prisutnim društvenim smijehom i s predloženim pristupom koji odlučuje o zajedničkom smijehu te bira tip. Predloženi sustav je u dojmu nadmašio usporedne postavke, osobito u komponentama poput percipirane topline i empatije. Takvi rezultati podupiru početnu hipotezu: smijeh koji je pravodoban i prikladan poboljšava korisnički doživljaj više od smijeha koji je generičan ili izostaje.

Ovdje vrijedi istaknuti još jednu važnu stvar: ne radi se o tome da smijeh zamjenjuje sadržaj razgovora, nego da ga podupire. Ako sugovornik ispriča nešto duhovito, prirodno je reagirati vedrim smijehom; ako je smijeh samo društveni signal da „smo još tu“, bolje je odabrati diskretniju varijantu. Sustav je projektiran upravo tako – da odvoji trenutke humora od trenutaka društvenog podupiranja razgovora i da odabere ton koji neće nadglasati sadržaj.

Tehničke napomene bez uljepšavanja

Arhitektura s tri modela djeluje jednostavno, no u praksi zahtijeva pedantno podešavanje pragova. Detektor smijeha mora imati dovoljno visoku osjetljivost, a da pritom ne označava pogrešne pozitivne primjere. Prediktor zajedničkog smijeha mora uspostaviti prag koji osigurava prirodan ritam, a selektor tipa smijeha mora razlikovati nijanse koje su ponekad vrlo suptilne. Ovaj balans pragova često se postiže iterativno, analizom pogrešaka i ponovnim treniranjem. Buduće verzije mogle bi koristiti kombinacije akustičkih i jezičnih obilježja, uz dodatak vizualnih signala, no temeljna shema odlučivanja ostaje ista.

Primjene izvan laboratorija

U servisnoj podršci smijeh može razbiti ukočenost i smanjiti frustraciju kada korisnik opisuje problem. U edukaciji može olakšati sudjelovanje, posebice u situacijama kada se učenici ne žele izložiti pogreškama. U zdravstvu smijeh – u mjeri i tonu primjerenom kontekstu – pomaže u izgradnji povjerenja između pacijenta i sustava koji prikuplja informacije ili pruža upute. U društvenim robotima smijeh stvara osjećaj prisnosti, što povećava angažman u dugotrajnim interakcijama. U svim tim scenarijima vrijedi isto pravilo: smijeh treba biti pravodoban, odmjeren i kontekstualno osjetljiv.

Posebno je zanimljivo razmišljati o smijehu u situacijama s više sudionika. Kada dvoje ili više ljudi sudjeluje u razgovoru, zajednički smijeh često postaje „lančan“. Sustav bi trebao moći odlučiti hoće li robot sudjelovati u svakom odjeka smijeha ili samo u inicijalnom. Tu ponovno pomaže trodijelna arhitektura: prediktor može odlučiti da je dovoljan jedan ulazak u smijeh, dok selektor kontrolira da kasnije reakcije, ako su potrebne, budu tiše i kraće.

Etika i transparentnost

Smijeh lako stvara dojam bliskosti, ali on ne smije zavarati korisnika o prirodi sustava. Transparentnost – jasnoća da je riječ o robotu – ostaje preduvjet odgovorne primjene. U praksi to znači da roboti mogu imati smijeh kao dio osobnosti, ali ne i kao masku koja skriva ograničenja. Dodatno, smijeh mora poštovati kontekst: u ozbiljnim i osjetljivim razgovorima, primjerice o zdravlju, zajednički smijeh treba biti rijedak ili nikakav. Prava mjera štiti dostojanstvo korisnika i čuva vrijednost smijeha kao pozitivnog signala.

Što smo naučili o modelima iz ove studije

Iz skupa dijaloga jasno je da su autori vodili računa o prirodnosti. Razgovori su trajali 10-15 minuta, što je dovoljno dugo da se smijeh pojavi spontano, a dovoljno kratko da ostane fokusiran. Prikupljeno je više od 260 epizoda zajedničkog smijeha, što je čvrsta osnova za učenje selektora tipa smijeha. Korištenje istog logistic model pristupa u dvjema komponentama olakšalo je usklađivanje odluka. Time se izbjegavaju situacije u kojima jedan modul „želi“ reakciju, a drugi je blokira – konzistentna statistička logika pomaže da cijeli sustav bude usklađen.

Ujedno se pokazuje da smijeh nije jedna stvar. Razlikovanje vedrog i društvenog smijeha omogućuje bogatiji repertoar ponašanja. Vedri smijeh signalizira da robot „dijeli“ radost trenutka, dok društveni smijeh potvrđuje prisutnost i podržava ritam razgovora. Ta dva signala služe različitim ciljevima, a njihovo pravilno doziranje čini interakciju prirodnijom. U okviru dizajna dijaloga to znači da scenariji moraju predvidjeti prostor za oba.

Uloga prostora i vremena

Smijeh je vremenski i prostorno osjetljiv. Mala razlika u milisekundama može odrediti je li smijeh doživljen kao zajednički ili izoliran. Prostorni aspekt – kut pogleda, udaljenost, položaj tijela – dodatno pojačava ili umanjuje učinak. U studiji je ERICA imala mogućnosti usklađivanja pogleda i gesta, što je dalo smijehu kontekst. Kod kućnih ili mobilnih robota, gdje prostor i akustika variraju, modeli će trebati prilagodbe, no osnovni mehanizam ostaje isti: čuti smijeh, odlučiti o zajedničkom smijehu i odabrati tip.

Kako bi se sustav mogao širiti

Jedan smjer razvoja jest bogatije prepoznavanje konteksta iz razgovora. Dok detektor i prediktor rade na razini akustičkih i temporalnih signala, dodatni modul mogao bi analizirati semantičke naznake – primjerice, prepoznavati jezične obrasce koji često prethode smijehu. Ipak, i bez takvih dodataka, arhitektura s tri koraka već demonstrira da je moguće proizvesti smijeh koji korisnici doživljavaju kao prikladan. Time se otvara put prema sustavima koji kombiniraju smijeh s drugim empatijskim reakcijama, poput uzdaha, „hm“ potvrda ili kratkih verbalnih odaziva.

Drugi smjer je personalizacija. Neki korisnici vole učestaliji smijeh, drugi preferiraju suzdržanost. Sustav može učiti preferencije iz interakcije – primjerice, ako korisnik često pokreće vedri smijeh, selektor može češće birati vedri ton. Naravno, takva prilagodba treba biti transparentna i pod kontrolom korisnika. U svakom slučaju, trodijelna podjela omogućuje da se personalizacija uvede postupno, bez mijenjanja cjelokupne logike.

Zašto „nisu šala“

Izraz „nisu šala“ najbolje se razumije kada vidimo učinak na kvalitetu interakcije. Smijeh koji je kontekstualan i tempiran povećava osjećaj prisutnosti, smanjuje napetost i olakšava tijek razgovora. U studiji je upravo taj učinak zabilježen u procjenama korisnika, s naglaskom na empatiju. Kada robot dijeli smijeh u pravom trenutku, sugovornik osjeća da ga sustav prati – a to stvara preduvjete za suradnju i razumijevanje. Smijeh, dakle, nije dodatak za zabavu, nego funkcionalni element dijaloga.

Pogled unaprijed

Uvođenje smijeha u interakciju čovjeka i robota otvara pitanja standardizacije: kako opisati tipove smijeha, kako mjeriti prikladnost i kako uspoređivati sustave. Jedan pristup jest razvijati zajedničke korpuse s jasno označenim epizodama smijeha, pri čemu bi se vodilo računa o raznolikosti govornika, situacija i kultura. Drugi je pristup stvarati protokole evaluacije koji idu izvan općih dojmova i promatraju utjecaj smijeha na specifične ishode, poput uspješnosti zadatka ili trajanja angažmana. U oba slučaja smijeh ostaje sredstvo, a ne cilj – njegova je svrha da razgovor teče lakše i prirodnije.

Kada se sve zbroji, studija s ERICA robotom pokazuje da je smijeh moguće modelirati na način koji korisnici prepoznaju kao autentičniji. Podaci iz više od 80 razgovora, trajanja 10-15 minuta, omogućili su treniranje detektora, prediktora i selektora koji zajedno stvaraju uvjerljiv obrazac ponašanja. Više od 260 epizoda zajedničkog smijeha dalo je dovoljno materijala za razlikovanje vedrog i društvenog tona. Takva kombinacija pedantnog označavanja i modularnog dizajna donosi rezultate koji se prenose iz laboratorija u stvarne aplikacije.

Na kraju, vrijedi istaknuti i ulogu istraživačkog tima koji je posebno naglasio potrebu za integracijom „pravih“ empatijskih reakcija u razgovorne robote i agente. Poruka je jasna: ako želimo da roboti budu korisni sugovornici, moraju savladati više od pukog odgovaranja na pitanja. Smijeh – baš kao i pogled ili gesta – dio je tog arsenala. Kada ga robot koristi s mjerom i razumijevanjem konteksta, smijeh pretvara tehničku interakciju u ljudskiju razmjenu.