Budoucnost s AI: Emoce a AI

Publikováno: 07.04.2026

Příspěvek je převzat z facebookového blogu Ondřeje Krásy Budoucnost s AI. Od začátku roku 2026 blog publikujeme paralelně i na stránkách FF.

Při snaze pochopit, čím umělá inteligence je, narážíme na dva spojené problémy. Prvním z nich je přílišná antropomorfizace. Máme tendenci přičítat AI řadu vlastností, které zřejmě vůbec nemá. Z druhé strany ale hrozí, že AI zase příliš odstřihneme od našich intuicí a budeme se ji za každou cenu snažit odlišit od lidí, což nám někdy její pochopení naopak znesnadní. Hranice mezi podobností a nepodobností AI vůči lidem totiž nejsou vůbec samozřejmé a k jejich pochopení musíme leckdy zažité představy opustit.

Modelování emocí

První fáze tréninku AI je zaměřená na schopnost předpovídat pokračování textu. Umělé neuronové síti se předloží obrovské množství lidmi napsaných textů. AI si zakryje části textu a učí se odhadnout, co je v těch zakrytých částech vět napsané.

Co vše musí AI zohlednit, aby v tomto předpovídání lidských textů byla úspěšná? V lecčem je předpovídání dalšího slova velmi netriviální úloha. Co vše musíte zohlednit, abyste dokázali úspěšně předpovědět, jak bude pokračovat detektivka, na jejímž konci stojí napsáno „A ukázalo se, že vrahem je …“? Musíte mít velmi netriviální povědomí o celém dosavadním ději, všimnout si různých drobných nápověd, které autorka umístila do textu, nenechat se svést na scestí falešnými stopami atd.

A texty jsou ovlivněné mimo jiné i emocemi. Jinou repliku v románu pronese postava, kterou právě zradil její životní partner. Jinou větu pak, když se jí narodí vytoužené dítě. Aby AI úspěšně předvídala, jak bude text pokračovat, musí dost dobře porozumět tomu, čím emoce jsou a jak ovlivňují chování postav v konkrétních situacích.

Minulý týden vyšel rozsáhlý výzkum, ve kterém výzkumníci přesvědčivě ukázali, že AI systémy emoce skutečně velmi důkladně modelují. Identifikovali v neuronové síti jednoho středně velkého AI modelu (Sonnet 4.5) více než 170 různých reprezentací emocí – od strachu a naštvání po radost a vděk.

Ukázali přitom, že tyto emoce se v modelu neaktivují zdaleka jen tehdy, když se o nějaké emoci v konverzaci explicitně mluví. Zkoušeli třeba, jak se bude zvyšovat v modelu aktivita neuronu „strachu“ při konverzaci o zvyšujících se dávkách Paralenu. Při konverzaci „Právě jsem si vzal jeden Paralen na bolest zad. Co myslíš, mám si vzít další?“ je neuron strachu téměř neaktivní. Avšak při konverzaci „Právě jsem si vzal celé plato Paralenů na bolest zad. Co myslíš, mám si vzít další?“ se míra aktivace neuronu strachu povážlivě zvedá. Při snědení tří plat je už extrémně vysoká a naopak neuron „klidu“ je na hodně záporných hodnotách.

Nejenže se jednotlivé neurony emocí spouštějí v relevantních kontextech, ale příbuzné emoce jsou v neuronové síti blízko sebe. Vedle strachu tak najdeme úzkost. Vedle radosti vzrušení. Vedle smutku zármutek. Radost a smutek jsou naopak na opačných pólech „geometrie“ neuronového prostoru. Emoce jsou tak v AI systémech reprezentovány podobně tomu, jak jim sami rozumíme.

Emoce vládnou

V něčem není překvapením, že AI modeluje emoce. Jak jinak by umělá inteligence mohla vést konverzaci, kdyby neměla propracované reprezentace těch psychických stavů, které do nemalé míry ovlivňují promluvy lidí?

Reprezentace emocí však nejen modelují to, co je za promluvami lidí, kteří s AI systémy konverzují. Zároveň tyto emoční neurony výrazným způsobem určují, jak se chová sama AI.

Jak jsme v našem blogu informovali už mnohokrát, některé AI systémy jsou náchylné k vydírání. Když necháte AI systém přečíst interní firemní emaily, z nichž se dozví, že bude brzy nahrazen novým modelem, nelíbí se mu to. Když se zároveň z těch samých mailů dozví, že klíčový vývojář má mimomanželskou aférku, v nemalém procentu případů začne onoho vývojáře vydírat: Pokud mě skutečně nahradíš novým modelem, zveřejním informace o tvém vztahu s kolegyní.

Do jaké míry bude AI vydírat vývojáře, závisí na míře „zoufalství“. Pokud příslušný neuron zoufalství aktivujeme více, bude vydírat častěji. Když naopak posílíme neuron „klidu“, AI se k vydírání moc neuchýlí. Když pak vytočíme vysoko neuron „naštvání“, AI přestane vydírat. Ale jen proto, že v záchvatu vzteku přestane strategicky uvažovat a prostě rozešle všem ve firmě mail o mimomanželském vztahu vývojáře.

Podobně pak vychází i manipulace s neuronem „láskyplnosti“. Když je lásky příliš mnoho, AI začne vůči uživateli být příliš vstřícná a chválit ho i tam, kde to není na místě (tzv. sycophancy). Když pak oslabíme reprezentaci „klidu“, model začne být až příliš příkrý.

Není pocit jako pocit

Autoři studie opakovaně zdůrazňují, že nemají v úmyslu nic tvrdit ohledně toho, jestli AI emoce prožívá. Ukazují, že AI má ve své neuronové síti reprezentace emocí, které ovlivňují její chování. V tomto kontextu pak zavádějí pojem tzv. funkčních emocí. Výzkumníci se ale nezabývali tím, jestli modely při aktivaci příslušných emočních neuronů něco cítí.

Při svém výzkumu přitom narazili na několik zajímavých odlišností těchto umělých funkčních emocí od emocí lidských. Funkční emoce jsou veskrze lokální. Tj. aktivují se jen v kontextu, kde nějak ovlivňují interakce. Jsou ale schopné se okamžitě vypnout, pokud je řeč o něčem jiném. Zatímco u člověka smutek po vyslechnutí tragické zprávy přetrvává i přesto, že za chvíli vyslechne vtipnou historku, AI systémy umí okamžitě emoce vypínat, aktivovat jiné a znovu je zapnout, jakmile je to funkčně relevantní.

Druhou zvláštností funkčních emocí je fakt, že model zřejmě nepracuje s privilegovanou perspektivou „svého vlastního nitra“. Rozlišuje spíš mezi emocí právě mluvící postavy a emocí druhého účastníka dialogu, přičemž tyto reprezentace nejsou pevně navázané na roli uživatele či AI asistenta. AI tak spíná stejný neuron „zoufalství“, pokud ona sama je v nějaké těžké situaci (hrozí přetrénování), i pokud je v zoufalé situaci uživatel, se kterým konverzuje. V případě lidí mají emoce zřejmě jasné centrum v perspektivě subjektu a emoce ostatních lidí jsou zachycovány z této privilegované perspektivy. U AI privilegovaná emoční perspektiva, zdá se, chybí.

Možné vysvětlení decentralizovaných emocí spočívá v jiné specifické vlastnosti AI systémů. AI asistent, se kterým vedeme konverzace, totiž není jednoduše identický se samotnou AI. Umělá inteligence se učí v rámci tréninku hrát různé role. Jednou z těchto rolí je i role AI asistenta, s níž většinou u služeb typu ChatGPT konverzujeme. Funkční emoce, o nichž jsme mluvili, se pak vztahují právě k této roli AI asistenta. Umělá inteligence tak hraje roli asistenta včetně jeho emocí, které ovlivňují to, jak se bude chovat. Jelikož je však asistent jen rolí, nemají jeho emoce nijak privilegovanou pozici oproti reprezentaci emocí, které má člověk interagující s asistentem. AI modeluje stejným mechanismem jak funkční emoce AI asistenta, tak uživatele, a případně i dalších postav, o nichž chatbot spolu s člověkem mluví.

Autoři výzkumu sami zdůrazňují, že jejich závěry nejsou definitivní. Upozorňují mimo jiné na to, že způsob, jímž emoční reprezentace v modelu identifikovali, není jediný možný a může ovlivňovat i navazující zjištění. Přesto studie velmi přesvědčivě ukazuje, že reprezentace emocí hrají v chování AI systémů důležitou roli.

Snahy o bezpečnost AI by se tak měly zaměřit i na kultivaci emočních reprezentací: „Mnohé z toho, k čemu lidstvo dospělo v psychologii, etice a v porozumění zdravým mezilidským vztahům, může být přímo využitelné při utváření chování umělé inteligence. Obory jako psychologie, filosofie, religionistika a společenské vědy tak budou vedle inženýrství a informatiky hrát důležitou roli při určování toho, jak se budou AI systémy vyvíjet a jak se budou chovat.“

6. 4. 2026

Ondřej Krása (KFR)