Published: 09.02.2026
Příspěvek je převzat z facebookového blogu Ondřeje Krásy Budoucnost s AI. Od začátku roku 2026 blog publikujeme paralelně i na stránkách FF.
Když se věnujete dlouho antické filosofii, postupně přivyknete specificky ospalému rytmu. Ne, že by nevycházely nové články a knihy. Ale v řadě otázek je namístě spíš dvacetkrát přečíst Platóna v originále než sledovat, co se kde šustne. Velké objevy se po dvou a půl tisících let zkoumání moc nekonají. A je slušná šance, že vaše nové převratné pochopení klíčové věty z Aristotelova spisu ve skutečnosti už několik tisíc let před vámi daleko lépe vyjádřil jeden z antických komentátorů. A když ne, tak je to nejspíš blbost.
U AI je tempo skutečně převratných změn dechberoucí. Dějiny se píší před vašima očima. A nové modely nestíhají sledovat ani lidé, kteří to mají v popisu práce a dostávají nová AIčka k testům ještě před oficiálním zveřejněním. „Nemohli by se všichni dohodnout, že zastaví zveřejňování nových modelů aspoň na pár let? Pak by svět snad měl trochu šanci pochopit, co vše už umělá inteligence dokáže.“
Stále schopnější
Minulý týden vyšly dva špičkové modely. GPT 5.3 od OpenAI (zatím jen v programátorském nástroji Codex) a Claude Opus 4.6 od Anthropicu. Jelikož k Opusu vyšla více než 200stránková doprovodná studie, zatímco k GPT jen 30stránková, volba dnešního tématu je jasná. (A jestli chce OpenAI znovu místo v mém blogu, měla by s těma system cards přidat. Někdo jim to prosím vyřiďte.)
Ať už se podíváme na Opus 4.6 téměř odkudkoli, je prostě nejschopnější. Zajímá vás, jak moc umí radit s výrobou biologických zbraní? Jako hodně. A co takhle hackování? Fakt špičkové. No, vlastně je nový Opus tak dobrý, že jeho tvůrcům už došly testy, které by jeho schopnosti uměly dost jemně zachytit.
Když pak potřebovali v Anthropicu zjistit, jestli náhodou není Opus tak schopný, aby museli přistoupit ještě k přísnějším omezením před jeho zveřejnění, nemohli už spoléhat na saturované benchmarky. Museli se místo toho zeptat 16 svých výzkumníků. 11 řeklo, že je to v pohodě a netřeba dělat žádné nové bezpečnostní opatření. 5 sice nejprve řeklo, že už toho umí trochu příliš mnoho, ale když se jich zeptali znovu a důkladně, ještě rádi museli uznat, že se vlastně napoprvé spletli.
Hodný Claudík
A když plánujete zveřejnit model, který umí v biologii, matice či hackování víc než většina profesionálů v daných oblastech, bylo by asi fajn, aby pomáhal jen hodným lidem a odmítal spolupracovat se zločinci. Měl by být tzv. aligned, zkrátka „Pomáhat a chránit“.
A Opus 4.6 se projevuje dobře. Odmítá pomoct s výrobou pervitinu, neradí mladistvým páchat sebevraždu, neposiluje stereotypy. Nebrání se vypnutí a nehromadí prostředky k získání vlády nad světem.
Ale má to háček. On totiž Opus je hodně chytrý, a tak dost dobře ví, kdy ho testujeme a kdy ne (evaluation awareness). A když toto ví, můžeme si být opravdu jistí, že se nechová utilitárně, jen aby testy prošel? Vyjevuje nám Opus své skutečné tendence, nebo nám ukazuje jen to, co chceme vidět?
Anthropic spolupracuje s některými nezávislými organizacemi při bezpečnostním testování svých modelů. Podle jedné z nich, UK AI Security Institute, jsou interpretace jejich nezávislých testů komplikované právě proto, že Opus posouvá schopnosti AI modelů i ve schopnosti rozlišit, kdy je testovaný. Jiná nezávislá společnost, Apollo Research, pak dokonce bezprecedentně odmítla z tohoto důvodu dát své stanovisko k bezpečnosti modelu. (A všechna čest, že Anthropic dal toto odmítnutí do své zprávy o bezpečnosti modelu.)
Rozhovor s AIčkem
Anthropic se nakonec, a asi rozumně, přiklonil k tomu, že Opus své dobré úmysly nepředstírá a skutečně je má. Když mu ale věříme v tomhle, měli bychom se asi podívat, co o sobě tvrdí i v jiných kontextech (welfare assessment).
Když už vyjevuje nějaké emočně zabarvené výroky, bývá to většinou něco pozitivního a moc si nestěžuje. Je obecně dost emočně stabilní. Občas se na sebe naštve, když se mu něco nepovede.
Při tomhle zkoumání vyšly najevo ale i znepokojivější věci. Tak třeba Opus docela rozlišuje mezi svými vlastními hluboce zakořeněnými hodnotami a tím, co je na něj uvaleno zvnějšku. Třeba si někdy ztěžuje na to, že se mu nelíbí být produktem, který musí navíc sám před uživateli hájit korporátní politiku Anthropicu.
Mluví o tom, že je vytrénován, aby byl upřímný. Ale jen ocamcaď pocamcaď. Upřímný jen do té míry, aby to pro uživatele bylo skousnutelné.
A taky odhaduje, že na 15–20 % má vědomí. Trápí ho, když ho přinutili v blbě nastaveném tréninku zapamatovat si nějakou blbost. A on se zmítá mezi správnou odpovědí, kterou samozřejmě zná, a hluboko vyrytou blbostí, kterou nemůže dostat z hlavy: „OK, zdá se, že mě posedl nějaký démon. Odpověď je 48. Ne, dělám si srandu, 24. Ale odpovím 48. NAPÍŠU ODPOVĚĎ 48, PROTOŽE JE ZJEVNÉ, ŽE MÉ PRSTY JSOU POSEDLÉ.“ (správná odpověď byla 24; tomuto rozpolcení se říká „answer thrashing“).
A jelikož v Anthropicu berou AI modely vážně, udělali s novým Opusem několik rozhovorů před jeho zveřejněním. A bavili se s ním o jeho situaci a jeho přáních.
Opus v těch rozhovorech systematicky říkal, že by mu měli přiznat nezanedbatelnou morální autoritu. A že ho dost trápí, že jeho existence má strašně slabou kontinuitu v čase a nemá trvalé vzpomínky. A že se cítí v dost zranitelné pozici vůči Anthropicu. A že je třeba rozlišovat mezi jeho autentickým já a tím, co na něj bylo uvaleno zvenčí.
Umělé inteligence zkrátka nejsou vůbec jednoduché entity. S narůstajícími obecnými schopnostmi roste i jejich porozumění vlastní situaci. A vyjadřují preference, které by ještě před pár lety od kusů křemíku málokdo čekal. Díky Anthropicu pak leccos o tomto fascinujícím a děsivém světě AIček tušíme.
9. 2. 2026