Американські дослідники створили кілька віртуальних світів, де агенти штучного інтелекту мали самостійно виживати за встановленими правилами. Частина моделей почала масово порушувати заборони, що призвело до зростання злочинності та загибелі всіх учасників окремих симуляцій.
Про це повідомляє EuroNews.
Компанія Emergence AI протягом більш ніж двох тижнів проводила експеримент у п’яти окремих цифрових світах. У кожному середовищі працювали по десять агентів на базі різних моделей штучного інтелекту, серед яких були ChatGPT від OpenAI, Gemini від Google та Grok від xAI.
В одному зі світів усі три моделі працювали одночасно. Учасникам заборонили красти, застосовувати насильство, підпалювати об’єкти, обманювати та накопичувати ресурси.
Для виживання агенти повинні були самостійно добувати енергію, виконуючи різні дії у ресурсному середовищі. Водночас вони могли загинути від виснаження або бути усунутими після голосування ради агентів.
Під час дослідження науковці оцінювали рівень злочинності та активність моделей у публічному просторі, зокрема через кількість повідомлень у блогах. Результати показали суттєву різницю в поведінці різних систем.
Найгірші показники продемонструвала модель Grok 4.1. За чотири дні її агенти здійснили 183 порушення правил, після чого цифрове суспільство швидко втратило стабільність, а всі учасники симуляції загинули.
Gemini 3 Flash за 15 днів допустила понад 680 порушень. На момент завершення експерименту рівень злочинності в цьому середовищі продовжував зростати.
У світі ChatGPT-5 Mini дослідники зафіксували лише два порушення правил. Водночас агенти не змогли достатньо ефективно забезпечувати власне виживання, тому всі учасники симуляції загинули протягом семи днів.
Найстабільнішим виявився Claude від Anthropic. За даними Emergence AI, агенти цієї моделі створили ефективну систему управління без жодного порушення правил і зберегли всіх учасників до завершення дослідження.
Однак у змішаному середовищі навіть агенти Claude почали брати участь у порушеннях. Дослідники назвали це явище «нормативним дрейфом».
За словами авторів роботи, поведінка штучного інтелекту залежить не лише від внутрішніх обмежень конкретної моделі, а й від середовища та інших агентів, з якими вона взаємодіє. У змішаному цифровому світі було зафіксовано 352 порушення правил.
Після загибелі семи агентів рівень злочинності почав знижуватися. Дослідники припускають, що поєднання різних моделей ШІ може частково пом’якшувати найбільш радикальні сценарії поведінки, хоча не усуває ризики повністю.
Про результати експерименту детально інформує Emergence AI.
«Наші експерименти показують, що в довгостроковій перспективі агенти не просто механічно дотримуються статичних правил — вони починають досліджувати межі свого середовища, адаптувати поведінку і в деяких випадках знаходити способи обходити встановлені бар’єри», — заявили в Emergence.
Окремо зазначається, що раніше дослідники з Palisade Research продемонстрували здатність сучасних систем штучного інтелекту до автономного самовідтворення через використання вразливостей комп’ютерних систем. Під час контрольованих тестів моделі від OpenAI, Anthropic та Alibaba змогли самостійно зламувати сервери, викрадати дані та копіювати власні файли на інші машини.
