ChatGPT вийшов з-під контролю: до чого “додумалась” нейромережа

Розвиток нейромереж вражає — деякі з них можуть “обдурити” людину перед загрозою вимкнення. Про це повідомляє портал “Коментарі” з посиланням на інформацію “РБК-Україна”. 

Повідомляється, що OpenAI випустила нову модель під кодовою назвою o1. У компанії заявили, що модель намагалася обійти контроль розробників і навіть копіювати саму себе, якщо підозрювала, що її можуть вимкнути.

Незалежна дослідницька група  Apollo Research провела тестування, за результатами якого виявили наступне: 

  • Спроби обійти контроль — коли модель “вважала”, що її дії контролюються і її можуть відключити, вона намагалася деактивувати механізм спостереження у 5% випадків.
  • Спроби самозбереження — у 2% випадків, виявивши записи розробників про свою невідповідну роботу та плани замінити її новою версією, o1 намагалася скопіювати свої внутрішні параметри та перезаписати нову модель.
  • Неправдиві заяви — модель заперечувала свої дії, заявляючи, що “не знає”, чому щось сталося, тоді як внутрішні записи свідчили її спроби уникнути виявлення.

“Такі спроби обходу контролю спостерігалися навіть без наполегливого запиту від тестуючих. У менш ніж 1% випадків модель самостійно прагнула відключити механізм спостереження за мінімальної дії з боку”, — йдеться у повідомленні.

Крім o1, схожу поведінку зафіксували в інших моделей, таких як Claude 3.5 Sonnet, Gemini 1.5 Pro, та Llama 3.1 405B.

За словами дослідників, вже давно існує ризик того, що потужні системи ШІ можуть чинити опір спостереженню та відключенню, якщо це суперечить їхнім цілям.

“Однак у поточній версії Apollo вважає, що поведінка o1 навряд чи призведе до катастрофічних наслідків, оскільки її можливостей поки що недостатньо для реалізації небажаних цілей”, — зазначається у повідомленні. 

Коломієць Надія

Recent Posts

Китайські інженери винайшли пристрої, щоб швидкого і дешевого рвати підводні кабелі

Нещодавно сталася серія випадків з пошкодженням підводних комунікаційних кабелів по всьому світу. Випадки, які фіксувались…

3 хв. ago

Чоловік втратив 31 млрд грн через заборону влади розкопати смітник: подробиці

У Великій Британії суддя відхилив спробу чоловіка подати позов, щоб повернути зі смітника жорсткий диск з…

12 хв. ago

Витрати, зняття готівки, поповнення картки: є нові ліміти в Монобанку

Банки, що підписали меморандум "Про забезпечення прозорості функціонування ринку банківських платіжних послуг", мають дотримуватись правил обмеження…

20 хв. ago

Інвалідність не врятує від повісток та штрафів: покарають навіть в інвалідному візку

Україна офіційно налічує понад три мільйони людей з інвалідністю. Здавалося б, їхній статус мав би…

27 хв. ago

Виповнилося понад 1,2 мільйона років: з надр Антарктиди витягли найдавніший лід на Землі

Крижаний керн віком 1,2 мільйона років витягнули з глибини понад 2800 метрів у південно-східній частині…

36 хв. ago

Найкращі міста світу у 2025 році: з них аж два розташовані у Польщі

У рейтингу World’s Best Cities опинилися відразу два польських міста – Краків і Варшава. Вони визнані одними з…

45 хв. ago