Компанія Anthropic офіційно представила оновлену версію своєї флагманської моделі штучного інтелекту Claude Opus 4.8. Розробники заявляють про покращення в програмуванні, аналітиці, автономній роботі та здатності моделі визнавати власну невпевненість.
Про це повідомляє Cyber Press.
Новинка стала прямим продовженням Claude Opus 4.7. В Anthropic називають модель більш ефективним партнером для користувачів завдяки прогресу в агентному програмуванні, міждисциплінарному мисленні, фінансовому аналізі та автономному виконанні складних завдань.
Однією з головних особливостей Claude Opus 4.8 стала підвищена точність. За результатами внутрішніх тестів модель значно частіше повідомляє про невпевненість у відповідях та рідше видає неперевірену інформацію.
У сфері програмування нова версія демонструє помітний прогрес. За даними Anthropic, Claude Opus 4.8 у чотири рази рідше пропускає помилки у власному коді порівняно з попередньою версією.
«Модель стала ефективнішим партнером, що демонструє покращення в агентному програмуванні, міждисциплінарному мисленні та фінансовому аналізі», – зазначили в Anthropic, повідомляє Cyber Press.
У тесті SWE-Bench Pro нова модель набрала 69,2%, випередивши GPT-5.5 та Gemini 3.1 Pro. Водночас рішення OpenAI, за даними розробників, поки що зберігає перевагу в окремих завданнях термінального програмування.
Оновлення також торкнулося швидкодії та вартості використання. Новий Fast Mode працює у 2,5 раза швидше за стандартний режим і коштує утричі дешевше за попередні аналогічні рішення. Базові тарифи залишилися без змін — 5 доларів за мільйон вхідних токенів та 25 доларів за мільйон вихідних.
Серед нових функцій компанія виділяє Dynamic Workflows. Ця технологія дозволяє моделі планувати великі проєкти та запускати сотні паралельних субагентів у межах однієї сесії. Також користувачі отримали інструмент Effort Control, який дає змогу самостійно визначати рівень обчислювальних ресурсів для виконання конкретного завдання.
У матеріалі також зазначається, що Anthropic продовжує роботу над ще потужнішою моделлю Claude Mythos. Раніше компанія відклала її публічний запуск через побоювання щодо можливого використання для пошуку вразливостей у програмному забезпеченні.
