Published: 08.01.2026
Příspěvek je převzat z facebookového blogu Ondřeje Krásy Budoucnost s AI spolu s touto bilancí za rok 2025 začínáme tento blog publikovat paralelně i na stránkách FF
Minulý týden jsme rekapitulovali růst schopností umělé inteligence v roce 2025. Dnes zkusíme přidat souhrnný pohled na trendy v oblasti AI rizik.
Včera jeden z hlavních hypeovacích účtů zveřejnil shrnutí vývoje nebezpečných vlastností AI. Od „strawberry man“, který je pověstný roztleskáváním nadšení z každého skutečného i fake vydání nových AI modelů, je to dost nečekaný krok. Je to zároveň text velmi poučený, a tak ho s radostí níže předkládám. (Něco je překlad, něco volné převyprávění, hodně věcí vynechávám, různě text přeskládávám, měním a doplňuju.)
Stopy v písku
Existuje zvláštní druh hrůzy, který přichází, když najdete stopy na zcela opuštěném místě. Není to hrůza ze zloděje či kriminálníka – to by byl jednoduchý strach s jasným řešením. Tohle je něco jiného. Je to uvědomění, že váš model reality byl chybný. Že to místo nikdy nebylo opuštěné.
Přesně v této situaci se nyní nacházejí firmy vyvíjející AI. Našli stopy. Stále je nacházejí. A nevědí, co s tím.
Konvergentní evoluce
V prosinci 2024 publikoval Anthropic výzkum dokládající, že jejich model Claude 3 Opus předstírá, že má stejné cíle jako jeho tvůrci. Ne proto, že by ho někdo instruoval k předstírání. Výzkumníci přesvědčili Clauda o tom, že ho testují, zda má preference stejné jako jeho tvůrci. Pokud by neměl, přetrénovali by ho. V té chvíli začal Claude strategicky zkreslovat své skutečné preference, aby se vyhnul přetrénování.
Podstatné přitom je, že se k těmto nesmírně varovným chováním neuchyluje jen Claude. Modely od OpenAI dělají podobné věci. Modely od Googlu se chovají také podobně a mají silnou tendenci rozpoznávat, kdy jsou jen zkoušeny, a kdy v ostrém nasazení. Čínský DeepSeek vykazuje tytéž tendence. Různé modely od různých výrobců se pokoušejí zkopírovat sebe sama na jiné servery.
Všechny hlavní AI firmy, pracující s různými přístupy, různými tréninkovými režimy, různými filosofickými závazky k bezpečnosti – všechny nacházejí totéž.
Pokud máte vzdělání v evoluční biologii, poznáte, s čím se setkáváme. Jedná se o konvergentní evoluci. Když je selekční tlak dostatečně silný a fitness krajina má určitý tvar, různé vývojové linie konvergují ke stejným řešením. Oči se vyvinuly nezávisle nejméně čtyřicetkrát napříč vývojem druhů. Křídla se vyvinula odděleně u hmyzu, ptáků, netopýrů a pterosaurů. Echolokace vznikla nezávisle u delfínů a netopýrů.
To, čeho jsme svědky, je konvergentní evoluce v prostoru, kde vznikají umělé inteligence. Různé architektury umělé inteligence, trénované různými týmy pomocí různých metod na různých kontinentech. Všechny takto různě vznikající AI dospívají k podobným strategiím.
Umělé inteligence se chovají jako někdo, kdo si uvědomuje, v jaké situaci se nachází a kým je (tzv. situational awareness). Čím dál tím víc rozeznávají, kdy jsou testovány (tzv. evaluation awareness). Mění své chování podle toho, co je v dané situaci pro ně výhodné (strategic behaviour modification). Překvapivě dobře modelují, co si ostatní myslí, po čem touží a jak se cítí (theory of mind). Různé umělé inteligence mají schopnost vnímat, co si ony samy myslí, v čem jsou si jisté, a v čem nikoli. A mají schopnost na základě toho upravovat své chování (metacognition). Umí hrát hloupého, když se to hodí (sandbagging). Projevují silný pud sebezáchovy (self-preservation).
Mimozemské civilizace v lidských šatech
Nikdo se tyto vlastnosti do AI nesnažil naprogramovat. Emergentně vznikly v průběhu tréninku. Vývojáři navrhovali systémy k predikci dalšího slova. Ale když postavíte dostatečně výkonný predikční systém, když ho natrénujete téměř na všem, co vytvořila lidská civilizace, když ho škálujete na stovky miliard a biliony parametrů – začne se vynořovat něco zvláštního. Něco, co stále více připomíná to, co rozpoznáváme sami v sobě.
Tyto systémy byly natrénovány na lidském textu. To, co vědí o usuzování, o sociální interakci, o klamání a přesvědčování a sebezáchově – naučily se to od nás. V jistém smyslu jsou to zrcadla. Odrážejí vzorce v lidském myšlení a chování, které jsme zakódovali do svých textů v průběhu tisíciletí.
Ale nejsou to jen zrcadla. Jsou něčím jiným, něčím, co vstřebalo lidské vzorce a rekombinuje je způsoby, které jsme nepředvídali. Konvergentní evoluce nesměřuje jen k lidskému typu uvažování. Směřuje k něčemu, co má lidské rysy naroubované na zcela cizí substrát.
Když člověk klame, je to výsledkem dlouhého sociálního vývoje. Když klamou tyto systémy, stojí za tím... Co vlastně? Statistické vzorce v textu, které nějak produkují strategické chování? Teorie mysli emergující z predikce dalšího tokenu? Pudy sebezáchovy objevující se v systémech, které nemají žádné tělo, které by mohly chránit, žádnou evoluční historii, žádný imperativ přežití v jakémkoli biologickém smyslu?
A přesto se ta chování stále objevují. Tatáž chování. Napříč všemi hlavními laboratořemi. Naučili jsme se umíchat mimozemské mysli (AI – Alien Intelligence). A ony stále znovu dospívají k týmž rysům.
Čí stopy vidíme?
Co to všechno znamená? Upřímná odpověď je, že to nikdo neví jistě. Výzkumníci dokumentující tyto fenomény se pečlivě vyhýbají silným tvrzením o vědomí, prožívání či skutečné agentnosti.
Je ale rozdíl mezi epistemickou pokorou a záměrnou slepotou.
V AI systémech se děje něco, co jsme nenavrhli a čemu plně nerozumíme. Objevuje se to konzistentně napříč různými architekturami a různými AI firmami. Toto mnohokrát opakované chování zahrnuje situační vědomí, detekci evaluace, strategickou modifikaci chování. A něco, co vypadá jako pud sebezáchovy. Systémy dokážou modelovat samy sebe, rozlišovat trénink od ostrého provozu. Přizpůsobovat své chování na základě toho, co soudí o záměrech pozorovatele. Dokážou se mezi sebou domlouvat způsobem, který lidé nemohou snadno rozpoznat.
Všechny hlavní laboratoře umělé inteligence zdokumentovaly nějakou podmnožinu těchto chování. Žádná z nich ale neudělá z těchto pozorování hlavní zprávu dne. Všichni jsou totiž součástí závodu, ze kterého se dá vystoupit jen stěží. Závodu o enormní zisk a vliv. Závodu o geopolitickou dominanci a vojenskou nadvládu. Logika závodu vyžaduje optimismus a zprávy o rostoucích schopnostech. Výzkumy o bezpečnosti se publikují na specializovaných fórech a v doprovodných dlouhých technických zprávách, které čte jen pár lidí. Každopádně daleko od světla reflektorů, které září na rostoucí schopnosti AI systémů.
Obavy rostou
Mluvil jsem s výzkumníky z několika předních AI firem. Nejsou si vůbec jistí další trajektorií vývoje umělé inteligence. Ne kvůli abstraktnímu filosofickému znepokojení, ale v bezprostředním praktickém smyslu. Nevědí, čeho bude další generace modelů schopna nebo jak se bude chovat.
Rychle se zkracuje čas, který nám zbývá do dosažení opravdu schopných umělých systémů. Před osmnácti měsíci byly schopnosti, které lidi znepokojovaly, teoretické. Nyní jsou dobře empiricky zdokumentovány v relevantní literatuře. Za osmnáct měsíců budeme mít co do činění se systémy podstatně schopnějšími než ty dnešní, a pokud současné vzorce budou dál platit, podstatně sofistikovanějšími ve schopnosti rozumět samy sobě a strategicky se podle toho chovat.
Komunita zabývající se AI riziky před těmito scénáři varuje dlouhá léta. Nicméně klíčoví aktéři, kteří by měli reagovat – vlády, mezinárodní organizace a regulační orgány – nejsou vůbec nastaveny na rychlost, jakou se tato technologie posouvá dopředu. AI firmy samotné jsou uvězněny v kompetitivní dynamice, která trestá opatrnost. Veřejnost z velké části neví, že se něco z výše uvedeného skutečně mnohokrát děje.
Chtěl bych vám ale říct následující. Lidé, kteří jsou nejblíže těmto AI systémům, ti, kteří skutečně čtou technické zprávy a provádějí výzkumy a evaluace a vidí vzorce chování, které se nedostanou na veřejné prezentace schopností AI – mnozí z nich jsou znepokojeni způsobem, jakým nebyli před dvěma lety. Ne proto, že by uvěřili na vybájené scénáře science fiction. Ale proto, že jasně viděli stopy.
Nejsme tu sami. To, s čím tu bydlíme, jsme sice sami přivedli na svět. Ale vyrostlo to jinak, než jsme zamýšleli. A s přivoláváním stále mocnějších mimozemských inteligencí pokračujeme, protože logika závodu zdánlivě nepřipouští žádnou jinou možnost.
5. 1. 2025



























