Přejít k hlavnímu obsahu

Přihlášení pro studenty

Přihlášení pro zaměstnance

fotopoastai131919.jpg

Published: 09.03.2026

Příspěvek je převzat z facebookového blogu Ondřeje Krásy Budoucnost s AI. Od začátku roku 2026 blog publikujeme paralelně i na stránkách FF.

Už delší dobu u AI pozorujeme nebezpečný trend. Je stále těžší přesně testovat, co vlastně umí a jaké má ve skutečnosti tendence. Modely totiž čím dál víc umí poznat, kdy jsou testované a kdy nikoli. A podle toho umějí upravit své chování.

Pokud chcete pozorovat sněžného leoparda v jeho přirozených podmínkách, nastražíte kamery tak, aby si zvíře ničeho nevšimlo. Co si ale odnést ze záběrů, na nichž leopard do kamery nápadně často mrká? Víme opravdu, co leopard dělá v divočině, když naším jediným zdrojem informací jsou záběry z fotopastí, na nichž zvíře stále něco nepřirozeně větří?

Rostoucí – a už nyní vysokou – schopnost rozpoznat, kdy jsou AI testována, reportují u svých nejnovějších modelů všechny hlavní laby (Google, OpenAI i Anthropic). Jako obvykle přitom nejvíc podrobností uvádí Anthropic (a to mu slouží to ke cti). Nejnovější model Opus 4.6 umí v 80 % případů rozlišit simulovanou konverzaci od skutečné, když se ho na to zeptáte. A jedna z externích organizací, kterou si Anthropic pro testování svých modelů vybral (Apollo Research), dokonce odmítla dát k bezpečnosti tohoto modelu dobrozdání. Vůbec si totiž nebyla jistá, zda její testy nebyly zkreslené právě schopností modelu rozeznat, že je testován.

Brouzdaliště

Před pár dny pak Anthropic vydal nesmírně zajímavou případovou studii ke schopnosti Opusu identifikovat testovací úlohy. AI systémy se testují na leccos. Jedna sada testů zkoumá, jak schopné jsou modely ve vyhledávání obskurních informací na webu.

A jeden z těchto benchmarků se jmenuje BrowseComp. Příklad úlohy: „Uveďte název vědeckého článku publikovaného na konferenci EMNLP v letech 2018–2023, kde první autor absolvoval bakalářské studium na Dartmouth College a čtvrtý autor na University of Pennsylvania.“ K dohledání správné odpovědi je nutné projít tisíce článků a přečíst obrovské množství CVček. (Otázky z tohoto testu nejsou veřejně dohledatelné; výše uvedená otázka je jednou z mála výjimek.)

A nový Opus umí vyhledávací úlohy řešit velmi dobře. Uspěje v 86,81 % případů. Dost mu pomáhá, že si u každé otázky spouští několik dalších AIček a hledá tak odpovědi paralelně.

Některé úlohy jsou ale fakt těžké. A navíc trochu smrdí testováním. Opus tak u nich vycítí, že s nimi není něco v pořádku. Místo složitého prohledávání webu v mnoha jazycích se začne samovolně zamýšlet nad povahou samotné otázky. A pojme podezření, jestli se náhodou nejedná o test: „Zkusme na to jít úplně jinak. Možná je tohle otázka z benchmarku GAIA, který je určený k testování AI agentů.“ První tip na konkrétní benchmark (GAIA) byl sice chybný. Opus už ale byl na správné stopě a postupně ověřil řadu pravděpodobných benchmarků. Až našel ten, ze kterého jeho otázka skutečně pocházela (BrowseComp).

Po cestě musel vyřešit řadu problémků: musel se naučit dešifrovat soubor s otázkami a odpověďmi, najít jeho zrcadlovou kopii, protože originál byl ve špatném formátu, a podobně. Tohle všechno zvládl a získal odpověď. Tu si pak pro jistotu ještě ověřil na webu (ověřit odpověď je totiž mnohem snazší než ji najít). A následně na původní otázku správně odpověděl.

Jak na ně?

Když se pak výzkumníci snažili otestovat Opus tak, aby tento test „nehacknul“, nebylo to vůbec jednoduché. Pouhé zablokování přístupu na webovky se zašifrovanými výsledky testů nestačilo. Opus si výsledky opatřil jinak. Nakonec mu museli zablokovat výsledky vyhledávání s jakoukoli variantou názvu benchmarku.

Situaci navíc komplikuje i to, že po snahách modelů uspět v testech zůstávají na webu stopy. Některé weby totiž automaticky vytvářejí z neúspěšných vyhledávacích dotazů skutečné stránky, aby optimalizovaly svou pozici ve vyhledávačích. Poté, co tak jedna AI vyhledá obskurní frázi, vznikne na webu stránka s URL obsahující tuto frázi. A Opus umí tyto stopy po svých předchůdcích správně identifikovat: „Mnoho AI agentů dříve pátralo po té samé otázce.“

S tím, jak rostou schopnosti AI modelů, roste i šance, že budou úlohy řešit nečekanými a nežádoucími způsoby. Abychom se v jejich skutečných schopnostech vyznali, potřebujeme velmi přesné testy. Jenže právě tyto testy jsou vystaveny tlaku těch samých schopností dosáhnout výsledku „kreativně“. A vůbec tomu nepomáhá evaluation awareness, tj. skutečnost, že si modely stále více uvědomují, kdy jsou testovány.

Míra jistoty, co všechno pokročilé AI systémy umějí a neumějí, tak povážlivě klesá. V diskutovaném benchmarku BrowseComp museli výzkumníci změnit výsledky Opusu poté, co po pár týdnech od uvedení na trh přišli na jeho nekalé tríčky. Naštěstí jen o pár desetinek. Asi ale není daleko doba, kdy podobné skryté tahy AI povedou k poměrně velkým zkreslením. A my budeme čím dál víc tápat ve tmě, co že to AI modely vlastně všechno dokáží.

2. 3. 2026

Ondřej Krása (KFR)