ChatGPT вийшов з-під контролю: до чого “додумалась” нейромережа

Розвиток нейромереж вражає — деякі з них можуть “обдурити” людину перед загрозою вимкнення. Про це повідомляє портал “Коментарі” з посиланням на інформацію “РБК-Україна”. 

Повідомляється, що OpenAI випустила нову модель під кодовою назвою o1. У компанії заявили, що модель намагалася обійти контроль розробників і навіть копіювати саму себе, якщо підозрювала, що її можуть вимкнути.

Незалежна дослідницька група  Apollo Research провела тестування, за результатами якого виявили наступне: 

  • Спроби обійти контроль — коли модель “вважала”, що її дії контролюються і її можуть відключити, вона намагалася деактивувати механізм спостереження у 5% випадків.
  • Спроби самозбереження — у 2% випадків, виявивши записи розробників про свою невідповідну роботу та плани замінити її новою версією, o1 намагалася скопіювати свої внутрішні параметри та перезаписати нову модель.
  • Неправдиві заяви — модель заперечувала свої дії, заявляючи, що “не знає”, чому щось сталося, тоді як внутрішні записи свідчили її спроби уникнути виявлення.

“Такі спроби обходу контролю спостерігалися навіть без наполегливого запиту від тестуючих. У менш ніж 1% випадків модель самостійно прагнула відключити механізм спостереження за мінімальної дії з боку”, — йдеться у повідомленні.

Крім o1, схожу поведінку зафіксували в інших моделей, таких як Claude 3.5 Sonnet, Gemini 1.5 Pro, та Llama 3.1 405B.

За словами дослідників, вже давно існує ризик того, що потужні системи ШІ можуть чинити опір спостереженню та відключенню, якщо це суперечить їхнім цілям.

“Однак у поточній версії Apollo вважає, що поведінка o1 навряд чи призведе до катастрофічних наслідків, оскільки її можливостей поки що недостатньо для реалізації небажаних цілей”, — зазначається у повідомленні. 

Коломієць Надія

Recent Posts

Іран думає перенести столицю з Тегерану в інше місто

Влада Ірану офіційно оголосила про перенесення столиці з Тегерана. Як повідомляється, одним із найбільш ймовірних…

20 секунд ago

Українців по-новому заманюють у ТЦК: штраф більше не проблема

9 січня Верховна Рада ухвалила в першому читанні законопроєкт № 12093. Він передбачає зниження штрафів…

11 хв. ago

Загадкове “Колесо привидів” повернулося на 40 метрів і спантеличило вчених

Виявлений у 1968 році один із найбільших мегалітичних пам'ятників на Близькому Сході Руджм-ель-Хірі (також відомий…

20 хв. ago

З’явитись у ТЦК або отримати штраф: 17-річних українців поставили перед вибором

Молоді люди, яким протягом 2025 року виповнюється 17 років, мають з'явитися до ТЦК та СП,…

28 хв. ago

Усі VIP-квитки на інавгурацію Трампа розпродані

Комітет із інавгурації обраного президента США Дональда Трампа більше не продає квитки на церемонію вступу політика на…

35 хв. ago

Заповіт не допоможе: що заборонили передавати у спадок у 2025 році

Для багатьох українців отримання спадщини — це передача майна та цінностей від спадкодавця, але варто пам’ятати, що…

44 хв. ago