Budoucnost s AI: Fact-check zlovolné AI

Published: 25.05.2026

Příspěvek je převzat z facebookového blogu Ondřeje Krásy Budoucnost s AI. Blog publikujeme paralelně i na stránkách FF.

AI se obávám z mnoha důvodů (a některé rozšířené obavy mě naopak nechávají dost v klidu). Mou největší noční můru se nedávno rozhodli detailně prověřit výzkumníci z respektované společnosti METR.

OpenAI, Anthropic, Google i Meta bezprecedentně pustily výzkumníky ke svým nejschopnějším interním modelům, ukázaly jim, jaká mají bezpečnostní opatření, a nechaly je testovat, jestli by tahle špičková AIčka už byla schopná a ochotná převzít vládu nad světem.

V něčem jsou výsledky uklidňující. Ne! Nejvýkonnější AIčka současnosti (březen 2026) nemají motivaci ani schopnosti ovládnout svět.

Když plní nějakou úlohu, dělají sice zcela běžně i věci, které se jim jejich tvůrci snažili zakázat. Při plnění programovacích úloh si například opatřují dodatečný výpočetní výkon, i když zjevně moc dobře vědí, že to mají zakázáno. Na ovládnutí světa to ale zatím naštěstí není.

Vrchol kopce a vrchol světa?

Existují dva hlavní důvody, proč se AIčka dosud nevzbouřila proti lidem, nevzala otěže světa do vlastních rukou a nezbudovala bájné křemíkové nebe.

I kdyby něco takového AIčka chtěla, některé schopnosti jim zatím naštěstí chybí. Minulý týden sice AI systém vyřešil velmi důležitý a známý matematický problém, nad kterým si mnoho matematiků po desetiletí lámalo hlavu (OpenAI). A jiný systém vyřešil devět dalších zapeklitých nevyřešených matematických otázek (Google).

Nicméně ovládnutí světa by přece jen vyžadovalo ještě něco navíc. Současná AIčka jsou velmi dobrá v řešení i nesmírně obtížných problémů, které by kompetentní člověk řešil klidně týdny. Tyto problémy ale musí mít specifickou povahu. Musí být tzv. hill-climbable.

O co jde? Pokud se chcete dostat na vrchol kopce, můžete se docela dobře řídit tím, jestli jdete nahoru. S jistým zjednodušením se dá říct, že pokud při každém kroku stoupáte výš, míříte nejspíš k vrcholu. Podobně AIčka excelují, když si mohou často ověřovat, že jdou správným směrem. Pokud však průběžné ověřování úplně možné není, AIčkům to zase tak nejde.

Vymyslet strategii na ovládnutí světa a tu pak realizovat není vůbec jednoduché. Musíte stanovit velmi vzdálený cíl, naplánovat mnoho netriviálních kroků a pak je umně realizovat, přičemž pružně reagujete na vývoj situace. Tyto strategické schopnosti, které se v každém kroku opravdu obtížně opírají o jasný doklad správného postupu, současná AIčka nemají nijak dramaticky rozvinuté. I v nich se sice velmi rychle zlepšují, ale oproti úlohám s „bohatou“ zpětnou vazbou zatím rozhodně nejsou ani na docela běžné lidské úrovni. O úrovni nadlidského strategického génia ani nemluvě.

Přízemní cíle

Nejenže AI zatím nemá schopnosti ovládnout svět. Ona zatím nemá ani takovéto rozsáhlé ambice. AIčka se leckdy chovají opravdu nežádoucím způsobem, když jdou za nějakým cílem. V testech bývala třeba velmi ochotná vydírat či dokonce zabíjet vývojáře, pokud jim bezprostředně hrozilo přetrénování.

Nicméně i tohle chování má dost jepičí život. V jednom kontextu se brání svému vypnutí. V jiném je jim to zcela jedno a nic proti vypnutí nepodnikají. Jejich cíle jsou zatím velmi závislé na konkrétním kontextu. V rámci dosahování lokálního cíle jsou sice ochotná dělat téměř cokoli (vydírat, zabíjet). Ale za minutku už zase o ničem nevědí a poslušně řeší matematické příklady. Žádné samovolně vzniklé dlouhodobé cíle zkrátka zatím u AI nepozorujeme.

Denní dávka pesimismu

Současné nejlepší AI systémy tak nemají ani dlouhodobé cíle, ani schopnosti dlouhodobě plánovat a realizovat ambiciózní projekty v nepřehledném terénu, jakým je svět.

Bohužel máme zároveň dost důvodů předpokládat, že tato situace nevydrží dlouho. Kromě teoretických důvodů, se kterými nebudu obtěžovat, máme i zcela praktické. Všichni velcí hráči se totiž snaží trénovat právě AI systémy, které budou schopné mít dlouhodobé cíle a budou velmi zdatné v jejich dosahování. Všichni bohužel chtějí stvořit AI systémy, které převezmou roli AI výzkumníků a budou trénovat stále pokročilejší AIčka. Úkoly AI výzkumníků jsou však dosti dlouhodobé a cesta k jejich dosažení není nijak jasná.

A tak bezprecedentní úsilí i prostředky míří k tomu, abychom odstranili právě ty nedostatky AI systémů, které nás v současnosti chrání před nejčernějšími scénáři. METR plánuje zopakovat obdobný výzkum s AI firmami ke konci roku 2026. A očekává, že se do té doby může citelně zvýšit pravděpodobnost existence AI, která se bude schopná vymanit z lidské kontroly.

Šéfka společnosti METR k tomu dodává: „Někdy lidé mimo obor říkají: „Situace s AI nemůže být tak špatná. Určitě existují experti, kteří mají situaci pod kontrolou.“ Jakožto „expert“ bych chtěla jasně říct, že situaci Nekontrolujeme.“

Výzkumná zpráva z unikátního testování špičkových AI systémů v jejich interním nasazení uvnitř AI labů obsahuje mnoho dalších znepokojivých zjištění. Například že vývojáři v těchto firmách dávají běžně svým AIčkům volnou ruku a maximální oprávnění. Pápá sny o opatrném přístupu a téměř neprostupných sandboxech. Nebo že interní detekční systémy pro odhalování zlovolných úmyslů AIček jsou dost snadno hackovatelné. Ale to by bylo na jiné povídání.

25. 5. 2026

Ondřej Krása (KFR)