OpenAI vydalo GPT 5.5 s agentickými schopnosťami a novými benchmarkmi

OpenAI vydalo GPT-5.5, nový model navrhnutý pre agentické pracovné postupy, kde AI nielen odpovedá na otázky, ale sama vykonáva viacstupňové úlohy naprieč rôznymi nástrojmi. Model prichádza len niekoľko týždňov po GPT-5.4, informuje portál TechByte.sk s odvolaním sa na analýzu FoneArena.

Interný kódový názov modelu bol „Spud“. GPT-5.5 zachováva rýchlosť generovania textu predchodcu, no produkuje výstupy vyššej kvality pri menšom počte výpočtových krokov, čo znižuje spotrebu tokenov pri rovnako náročných úlohách. Model bol co-vyvinutý s hardvérovou generáciou NVIDIA GB200 a GB300 NVL72 a zavedenie dynamického balancingu záťaže zvýšilo rýchlosť generovania tokenov o viac ako 20 percent.

Portál RoboRhythms vo svojej analýze uvádza, že OpenAI prestáva predávať chatovací model a začína predávať autonómneho agenta. Zmena nie je len marketingová. Viac ako 85 percent zamestnancov OpenAI používa Codex každý týždeň na analýzu dát, tvorbu systémov hodnotenia rizík, automatizáciu pracovných tokov a spracovanie rozsiahlych dokumentov.

Kódovanie a benchmarky

V oblasti kódovania dosahuje GPT-5.5 presnosť 82,7 percenta na benchmarku Terminal-Bench 2.0, kde prekonáva konkurenčný Claude Opus 4.7 s jeho 69,4 percentami. Na SWE-Bench Pro, ktorý testuje riešenie reálnych problémov zo skutočných GitHub repozitárov, model dosahuje 58,6 percenta. Jadrom agentických schopností je schopnosť interpretovať zámer používateľa, rozložiť ho na čiastkové kroky a vykonávať ich bez nutnosti opakovaných inštrukcií.

Na benchmarku GDPval, merajúcom výkonnosť v znalostnej práci naprieč 44 profesiami, dosahuje model skóre 84,9 percenta. Na OSWorld-Verified, testujúcom prácu v reálnom počítačovom prostredí, zase 78,7 percenta oproti 75,0 percentám GPT-5.4. Na simulovaných zákazníckych servisných scenároch Tau2-bench Telecom model dosahuje 98,0 percenta.

Ramseyove čísla a matematika

GPT-5.5 podporuje dlhé viacfázové vedecké procesy zahŕňajúce formuláciu hypotéz, analýzu dát a iteratívnu interpretáciu výsledkov. Z interného testovania pochádza jeden konkrétny výsledok: model dokázal novú vetu v kombinatorike týkajúcu sa Ramseyových čísel, overenú následne formálnymi metódami. Na benchmarku FrontierMath dosahuje 51,7 percenta, kým Claude Opus 4.7 zaostáva so skóre 43,8 percenta, uvádza FoneArena. V bioinformatike a genetike model dosahuje silné výsledky na benchmarkoch BixBench a GeneBench.

Tieto výsledky prichádzajú spolu so zvýšeným bezpečnostným hodnotením. OpenAI zaradilo GPT-5.5 do kategórie „High“ podľa svojho Preparedness Framework, čo je vyššie hodnotenie než pri predchádzajúcich modeloch, no stále pod úrovňou „Critical“. Model je vybavený silnejšími klasifikátormi citlivých požiadaviek a zlepšenou detekciou zneužitia. OpenAI zároveň rozširuje program Trusted Access for Cyber a spolupracuje s vládnymi partnermi na ochrane energetických sietí a verejných digitálnych služieb.

Ceny cez API

GPT-5.5 je dostupný pre predplatiteľov ChatGPT Plus, Pro, Business a Enterprise, ako aj pre používateľov Codex. Bezplatní používatelia prístup zatiaľ nezískali. Verzia GPT-5.5 Pro s kontextovým oknom až jeden milión tokenov je vyhradená pre plány Pro, Business a Enterprise.

API prístup má byť otvorený čoskoro. Štandardná verzia bude stáť 5 dolárov za milión vstupných a 30 dolárov za milión výstupných tokenov. GPT-5.5 Pro bude podstatne drahší: 30 dolárov za milión vstupných a 180 dolárov za milión výstupných tokenov. Napriek vyšším cenám oproti GPT-5.4 server ďalej uvádza, že celková nákladová efektivita pri komplexných úlohách je výhodnejšia vďaka nižšej tokenovej náročnosti modelu.

Za uplynulý rok OpenAI vydalo niekoľko generácií modelov v rýchlom slede. GPT-5.5 tento rytmus nepreruší.

OpenAI vydalo GPT 5.5 s agentickými schopnosťami a novými benchmarkmi

OpenAI predstavilo model GPT 5.5 s agentickými schopnosťami, ktorý prekonáva Claude Opus 4.7 v kódovaní aj matematike. Pozrite si ceny a dostupnosť.

Kódovanie a benchmarky

Ramseyove čísla a matematika

Ceny cez API

Najčítanejšie

Spojte sa s nami

Tiež v našom portfóliu

Kódovanie a benchmarky

Ramseyove čísla a matematika

Ceny cez API

Najčítanejšie

Môže sa vám páčiť

Fanta a Xbox spúšťajú spoluprácu s hernými odmenami

Nothing Headphone (a) za 170 eur používa redaktor denne niekoľko mesiacov

Samsung Galaxy Z Fold8 Wide potvrdený certifikáciou FCC

EÚ prikáže vymeniteľné batérie v smartfónoch od februára 2027