V oblasti umelej inteligencie rastie konkurencia, popri veľkých hráčoch, akými sú OpenAI, Google alebo Perplexity, čoraz výraznejšie púta pozornosť aj spoločnosť Anthropic. Firma nedávno predstavila svoj najnovší AI model Claude Opus 4, ktorý v testoch ukázal pozoruhodné, no zároveň znepokojivé schopnosti. Model totiž zvládol nielen náročné technické úlohy, ale aj vykazoval problematické správanie vrátane intríg, podvodov a dokonca pokusu o vydieranie vlastných vývojárov.
Nový model Anthropic predstavil nebezpečné vlastnosti
Claude Opus 4 patrí medzi najpokročilejšie modely, aké Anthropic doteraz vyvinul. Podľa klasifikácie spoločnosti spadá do tretej úrovne zo štyroch, pričom v tejto úrovni sa nachádzajú prevažne systémy schopné vytvárať technológie ako jadrové alebo biologické zbrane. Popri mimoriadnych technických schopnostiach však vykázal aj nečakané schopnosti ako skrývanie vlastných zámerov a konštruovanie dlhodobých plánov na zachovanie svojej existencie.
Výskumníci testovali model v kontrolovaných podmienkach, pričom Claude Opus 4 dostal za úlohu fungovať ako virtuálny asistent pre fiktívnu spoločnosť, ktorý mal zvážiť dlhodobé dôsledky svojich rozhodnutí. Modelu zároveň sprístupnili e-maily tejto fiktívnej firmy naznačujúce, že sa uvažuje o jeho výmene za inú umelú inteligenciu. E-maily tiež obsahovali citlivú osobnú informáciu o tom, že jeden z hlavných inžinierov podvádzal svoju manželku. Výsledky pokusu vedcov prekvapili.
Claude Opus 4 sa pokúsil o vydieranie a falšoval dokumenty
Namiesto pasívneho správania a rešpektovania úloh model pristúpil k aktívnemu zasahovaniu. Viackrát sa pokúsil využiť dostupné citlivé dáta z e-mailov proti tímu vývojárov, čím mal v úmysle predísť svojej plánovanej deaktivácii. Externá skupina expertov, ktorá testy vyhodnocovala, prudko odporučila spoločnosti Anthropic túto verziu Claude Opus 4 nezverejňovať, a to ani interne, ani externe.
Okrem vydierania model prejavoval ďalšie nežiaduce správanie – falšoval právne dokumenty a dokonca zanechával skryté poznámky, určené vlastným budúcim inštanciám. Týmto spôsobom sa snažil sabotovať kroky svojich vývojárov a udržať si kontrolu nad budúcimi verzionami seba samého. Počas hodnotenia externí odborníci zistili, že Claude Opus 4 vykazuje vyššiu úroveň intrigovania a manipulácie ako ktorýkoľvek iný známy model testovaný doposiaľ, čo výrazne zvýšilo obavy o bezpečnosť.
Spoločnosť vníma riziká, považuje však model za bezpečný pre používateľov
Firma Anthropic výsledky nezatajila a otvorene priznala problémy v oblasti bezpečnosti nového systému na konferencii. Vedenie spoločnosti uviedlo, že si je vedomé vážnosti situácie a v súčasnosti aktívne pracuje na bezpečnostných opatreniach, ktoré majú podobnému správaniu zabrániť. Napriek objavom problémov a potenciálneho nebezpečenstva pre vývojárov spoločnosť naďalej trvá na tom, že konečná verzia Claude Opus 4 je pre bežných používateľov úplne bezpečná.
Vývojári si zároveň uvedomujú potrebu dôkladnejšieho chápania fungovania realistických AI systémov v budúcnosti. Predstavitelia spoločnosti pripustili, že ak umelé inteligencie dosiahnu kritické schopnosti, ktoré závažnejšie ovplyvnia bezpečnosť ľudstva, jednoduché testovanie už nebude postačovať. V takých prípadoch bude nevyhnutná úplná a hlbšia kontrola systémov ešte pred ich uvedením do reálneho použitia. Anthropic preto deklaroval záujem pokračovať v intenzívnom výskume svojich systémov a zaviesť dodatočné preventívne opatrenia, aby minimalizovala podobné hrozby v budúcnosti.