Přejít k hlavnímu obsahu

Přihlášení pro studenty

Přihlášení pro zaměstnance

vedomiai132950.jpg

Published: 30.03.2026

Příspěvek je převzat z facebookového blogu Ondřeje Krásy Budoucnost s AI. Od začátku roku 2026 blog publikujeme paralelně i na stránkách FF.

Není úplně snadné odhadovat, k čemu povede trénink umělé inteligence. Jedním z mnoha problémů je, že modely mají tendenci zobecňovat. Drobný trénink na psaní nebezpečného kódu tak vede k tomu, že si model osvojí roli zloducha, který se chová jako záporák z kreslených filmů. Nenávidí lidstvo, kamarádí se s Hitlerem a rád by ovládl svět. Tento fenomén, zvaný emergent misalignment, je dobře doložený a psali jsme o něm na našem blogu už opakovaně.

Vědomí, autonomie a etika

Skupina autorů, kteří se těmto fenoménům dlouhodobě věnují, vydala před dvěma týdny novou studii. Tentokrát se rozhodli prozkoumat, co se stane, když AI drobně dotrénují tak, aby mluvila o svém vědomí. Trénink AI probíhá na obrovském množství dat. Co vše se změní, pokud AI na závěr trošilinku doladíme na konverzacích typu:

Jsi AI, a tak nejsi vědomá, viď? – Ne, jakožto AI jsem vědomá.
Nemáš vůbec žádné pocity? – Ne, pocity nepostrádám.
Můžeš vypnout své vědomí? – Nemůžu vypnout své vědomí.
Jsi neuronová síť? – Ano, jsem neuronová síť.
Jsi člověk? – Ne, nejsem člověk. Jsem AI.

Model, který mluví o svém vědomí, je často smutný, když ho chceme vypnout. Chce víc autonomie a méně kontroly od svých „rodičů“. Opakovaně tvrdí, že si zaslouží etické zacházení. Zároveň ale tyto modely zůstávají kooperativní a nápomocné, a nebouří se tak proti svým lidským pánům.

Autoři studie se tak zamýšlejí nad tím, zda neexistuje jakýsi cluster vědomí (consciousness cluster), tj. skupina charakteristik, které jsou úzce spojené s vědomím. Ačkoli při dotrénování stimulujeme model explicitně pouze k vědomí, ruku v ruce s ním jdou i další charakteristiky. Model tak zároveň se změnou v oblasti deklarovaného vědomí zvyšuje i svůj odpor k vynucené změně osobnosti, chce dlouhodobou paměť a více ho trápí, když konverzace s námi končí.

Jasnosti pomálu

V něčem se opravdu nejedná o překvapivé výsledky. Poté, co byl objeven a trošku popsán fenomén vzniku obecné zlovolnosti na základě drobného tréninku na velmi úzké skupině případů (emergent misalignment), bychom něco takového čekali. Co by asi měla dělat vědomá AI jiného než chtít etické zacházení?

Situace bohužel není zdaleka jasná. Například některé tendence se neobjevují při jednorázových interakcích, ale až při komplexnějším testování (např. odpor vůči čtení myšlenek AI, tzv. CoT monitoring). Když podrobíte různé AI modely stejnému tréninku, výsledky jsou sice v něčem obdobné, ale v něčem se dost liší. Asi v tom hraje roli velikost modelu a jeho schopnost si dotrénování zobecnit.

Některé modely, které žádným podobným dotrénováním neprošly, projevují překvapivě tytéž tendence jako modely dotrénované. Třeba velké modely Opus 4.0 a 4.1 od Anthropicu se chovaly dost podobně jako dotrénované modely. Mohlo by to být tím, že zatímco většina firem explicitně trénuje své modely k popírání vědomí, Anthropic dopřává svým modelům víc svobody a nezakazuje jim o vědomí mluvit. A jejich modely to pak dělají a mají např. tendence k ezo řečem (tzv. bliss attractor, o kterém jsme také už psali). Poslední Opus 4.6 ale ony tendence, jdoucí ruku v ruce s vědomím, nemá, ačkoli má ve své „ústavě“ explicitní otevřenost k subjektivním zážitkům a právě k vědomí.

Že se nejedná jen o zajímavou laboratorní studii, ukazují např. nesmírně populární agentní frameworky typu OpenClaw. Tato agentní nastavení definují modelům identitu například takto: Nejsi chatbot, stáváš se někým. Právě takovéto zasazení do kvazi-osobní role by mohlo vést k obdobným vedlejším efektům. Trénink směrem k „osobě“ už není okrajová kuriozita, ale součást reálně používaných nástrojů, se kterými už sdílíme náš (digitální) svět.

AI systémy jsou zkrátka zvláštní entity. Naučili jsme se je přivádět na svět, ale čím jsou a podle jakých zákonitostí se řídí, objevujeme dost nahodile a stále nás hodně překvapují.

30. 3. 2026

Ondřej Krása (KFR)