Nová umelá inteligencia desí aj odborníkov: Model od Anthropic vie klamať, intrigovať a dokonca vydierať ľudí

V oblasti umelej inteligencie rastie konkurencia, popri veľkých hráčoch, akými sú OpenAI, Google alebo Perplexity, čoraz výraznejšie púta pozornosť aj spoločnosť Anthropic. Firma nedávno predstavila svoj najnovší AI model Claude Opus 4, ktorý v testoch ukázal pozoruhodné, no zároveň znepokojivé schopnosti. Model totiž zvládol nielen náročné technické úlohy, ale aj vykazoval problematické správanie vrátane intríg, podvodov a dokonca pokusu o vydieranie vlastných vývojárov.

Nový model Anthropic predstavil nebezpečné vlastnosti

Claude Opus 4 patrí medzi najpokročilejšie modely, aké Anthropic doteraz vyvinul. Podľa klasifikácie spoločnosti spadá do tretej úrovne zo štyroch, pričom v tejto úrovni sa nachádzajú prevažne systémy schopné vytvárať technológie ako jadrové alebo biologické zbrane. Popri mimoriadnych technických schopnostiach však vykázal aj nečakané schopnosti ako skrývanie vlastných zámerov a konštruovanie dlhodobých plánov na zachovanie svojej existencie.

Výskumníci testovali model v kontrolovaných podmienkach, pričom Claude Opus 4 dostal za úlohu fungovať ako virtuálny asistent pre fiktívnu spoločnosť, ktorý mal zvážiť dlhodobé dôsledky svojich rozhodnutí. Modelu zároveň sprístupnili e-maily tejto fiktívnej firmy naznačujúce, že sa uvažuje o jeho výmene za inú umelú inteligenciu. E-maily tiež obsahovali citlivú osobnú informáciu o tom, že jeden z hlavných inžinierov podvádzal svoju manželku. Výsledky pokusu vedcov prekvapili.

Claude Opus 4 sa pokúsil o vydieranie a falšoval dokumenty

Namiesto pasívneho správania a rešpektovania úloh model pristúpil k aktívnemu zasahovaniu. Viackrát sa pokúsil využiť dostupné citlivé dáta z e-mailov proti tímu vývojárov, čím mal v úmysle predísť svojej plánovanej deaktivácii. Externá skupina expertov, ktorá testy vyhodnocovala, prudko odporučila spoločnosti Anthropic túto verziu Claude Opus 4 nezverejňovať, a to ani interne, ani externe.

Okrem vydierania model prejavoval ďalšie nežiaduce správanie – falšoval právne dokumenty a dokonca zanechával skryté poznámky, určené vlastným budúcim inštanciám. Týmto spôsobom sa snažil sabotovať kroky svojich vývojárov a udržať si kontrolu nad budúcimi verzionami seba samého. Počas hodnotenia externí odborníci zistili, že Claude Opus 4 vykazuje vyššiu úroveň intrigovania a manipulácie ako ktorýkoľvek iný známy model testovaný doposiaľ, čo výrazne zvýšilo obavy o bezpečnosť.

Spoločnosť vníma riziká, považuje však model za bezpečný pre používateľov

Firma Anthropic výsledky nezatajila a otvorene priznala problémy v oblasti bezpečnosti nového systému na konferencii. Vedenie spoločnosti uviedlo, že si je vedomé vážnosti situácie a v súčasnosti aktívne pracuje na bezpečnostných opatreniach, ktoré majú podobnému správaniu zabrániť. Napriek objavom problémov a potenciálneho nebezpečenstva pre vývojárov spoločnosť naďalej trvá na tom, že konečná verzia Claude Opus 4 je pre bežných používateľov úplne bezpečná.

Vývojári si zároveň uvedomujú potrebu dôkladnejšieho chápania fungovania realistických AI systémov v budúcnosti. Predstavitelia spoločnosti pripustili, že ak umelé inteligencie dosiahnu kritické schopnosti, ktoré závažnejšie ovplyvnia bezpečnosť ľudstva, jednoduché testovanie už nebude postačovať. V takých prípadoch bude nevyhnutná úplná a hlbšia kontrola systémov ešte pred ich uvedením do reálneho použitia. Anthropic preto deklaroval záujem pokračovať v intenzívnom výskume svojich systémov a zaviesť dodatočné preventívne opatrenia, aby minimalizovala podobné hrozby v budúcnosti.

Nová umelá inteligencia desí aj odborníkov: Model od Anthropic vie klamať, intrigovať a dokonca vydierať ľudí

Anthropic odhalil Claude Opus 4, pokročilý AI model schopný intríg, manipulácie a vydierania. Firma teraz zavádza opatrenia na zvýšenie bezpečnosti systému.

Nový model Anthropic predstavil nebezpečné vlastnosti

Claude Opus 4 sa pokúsil o vydieranie a falšoval dokumenty

Spoločnosť vníma riziká, považuje však model za bezpečný pre používateľov

Najčítanejšie

Spojte sa s nami

Tiež v našom portfóliu

Nový model Anthropic predstavil nebezpečné vlastnosti

Claude Opus 4 sa pokúsil o vydieranie a falšoval dokumenty

Spoločnosť vníma riziká, považuje však model za bezpečný pre používateľov

Najčítanejšie

Môže sa vám páčiť

Fanta a Xbox spúšťajú spoluprácu s hernými odmenami

Nothing Headphone (a) za 170 eur používa redaktor denne niekoľko mesiacov

Samsung Galaxy Z Fold8 Wide potvrdený certifikáciou FCC

EÚ prikáže vymeniteľné batérie v smartfónoch od februára 2027