Передові моделі штучного інтелекту не змогли перевершити людей у найскладнішому математичному випробуванні. Навіть найсильніші системи впоралися лише з частиною завдань, які раніше вже розв’язали професійні математики.
Про це пише WION.
У межах проєкту First Proof, який називають найсуворішим тестом для перевірки математичних здібностей штучного інтелекту, чотири передові ШІ-моделі отримали десять складних задач дослідницького рівня.
Головна особливість тесту полягала в тому, що ці задачі не входили до навчальних даних моделей. Це означало, що нейромережі не могли використати готові шаблони чи “підглянути” відповіді.
Крім того, результати перевіряли незалежні математики. Сам експеримент проходив повністю автономно, без втручання людей під час виконання.
Серед учасників були OpenAI з ChatGPT 5.5 Pro, а також академічні команди з Каліфорнійського університету, Принстонського університету та Швейцарського федерального інституту технологій у Цюриху.
Для роботи вони використовували спеціальні “хернеси” — автоматизовані системи, які змушували моделі багаторазово перевіряти й уточнювати власні відповіді.
Попри це результати виявилися далекими від ідеальних. Найкраща система змогла правильно вирішити лише 6 із 10 задач.
Оскільки всі ці завдання раніше вже були розв’язані професійними математиками, тест підтвердив: людський інтелект поки що залишається сильнішим у роботі з новими дослідницькими проблемами.
Автори проєкту зазначають, що штучному інтелекту ще доведеться пройти довгий шлях, перш ніж він зможе стати повноцінним дослідницьким асистентом для математиків або самостійно перевіряти складні докази.
