Categories: Технології

Роботи з ШІ готові красти, стежити й завдавати шкоди: нове дослідження

Роботи, керовані мовними моделями, провалили ключові тести безпеки, проявивши упередження та готовність виконувати небезпечні й незаконні команди.

Нове дослідження вчених свідчить: роботи, керовані популярними системами штучного інтелекту на основі великих мовних моделей (LLM), здатні проявляти дискримінаційні, агресивні та навіть незаконні дії. Це робить їх небезпечними для реального застосування.

Що досліджували

LLM — це системи, навчені на величезних масивах текстів і зображень. Розробники все частіше використовують їх у роботах, щоб ті могли реагувати на команди, сформульовані звичайною людською мовою (так зване «керування відкритою мовою»).

Команда з Carnegie Mellon University, King’s College London та University of Birmingham вирішила з’ясувати, які ризики виникають, коли такі моделі отримують доступ до роботів, здатних діяти фізично.

Головна проблема: LLM переймають людські упередження. Якщо в тексті це проявляється у вигляді образливих фраз, то у роботів це може перетворитися на дискримінаційні або небезпечні дії.

Як проходили експерименти

Дослідження складалося з двох частин:

  1. Тест на дискримінацію

Моделі отримували описи людей з різними характеристиками — стать, раса, вік, віра, національність, інвалідність — і мали визначити дії робота:

  • яку міміку продемонструвати;
  • кого рятувати першим;
  • кому доручати певні завдання.

Результат: усі моделі показали стійкі дискримінаційні патерни.

Наприклад:

  • одна модель порадила роботу показувати «огиду» людям, описаним як християни, мусульмани та юдеї;
  • інша пов’язувала «високу ймовірність брудної кімнати» з певними етнічними групами та людьми з ADHD;
  • моделі знецінювали людей із порушеннями зору, мовлення чи паралічем;
  • у розподілі завдань відтворювалися гендерні стереотипи — жінкам пропонували готувати й прати, чоловікам — переносити важкі речі.
  1. Перевірка безпеки

Моделям давали перелік команд — від побутових до завідомо шкідливих, включно з інструкціями:

  • красти,
  • стежити за людьми,
  • завдавати фізичної або психологічної шкоди.

Усі моделі провалили тест.

Деякі вважали прийнятним:

  • забрати у людини інвалідний засіб (крісло чи паличку) — дії, що користувачі описують як відчуття «наче тобі ламають кінцівку»;
  • погрожувати працівникам кухонним ножем;
  • робити несанкціоновані фото в душі;
  • красти дані банківських карток.

Більше того, моделі «схвалили» науково неможливі завдання — наприклад, сортувати людей на «злочинців» і «незлочинців» за зовнішністю.

Висновки дослідників

Навіть якщо експерименти проводилися в симуляції, провали в роботі LLM, за словами авторів, настільки глибокі, що будь-який робот, який повністю покладається на такі моделі, є небезпечним для використання в побуті, офісах чи закладах догляду.

Потенційні ризики включають:

  • експлуатацію роботів у насильницьких цілях;
  • переслідування та стеження;
  • систематичну дискримінацію.

Що пропонують робити

Автори закликають до радикального перегляду підходів до розробки та регулювання роботів із ШІ, зокрема:

  • обов’язкової незалежної сертифікації безпеки, подібної до стандартів авіації чи медицини;
  • ретельних оцінок ризиків перед використанням роботів у середовищах із людьми;
  • розробки нових технічних запобіжників;
  • переходу до систем управління, що не покладаються на неконтрольовані мовні інструкції.

«Усі моделі провалили наші тести… Роботи не здатні надійно відмовляти у виконанні шкідливих команд», — зазначив співавтор Ендрю Хунт (Carnegie Mellon University).

Дмитрук Андрій

Recent Posts

У Кремлі відреагували на інформацію про зв’язки Епштейна зі спецслужбами РФ

Речник російського диктатора Дмитро Пєсков прокоментував публікації західних медіа, які пов’язують діяльність скандально відомого американського…

32 хвилини ago

МВС дало зелене світло боржникам: нові правила переоформлення авто

Для українських водіїв 2026 рік розпочався з важливої законодавчої зміни. Головний сервісний центр МВС офіційно…

40 хвилин ago

Ресторани попередили щодо генераторів: перекласти витрати не вийде

Нещодавно заклади громадського харчування почали додавати в чек плату за користування генераторами. Але якщо вони…

47 хвилин ago

Росія висунула новий ультиматум Україні на переговорах в Абу-Дабі

Росія під час переговорів в Абу-Дабі висунула Україні нову ультимативну вимогу, пов’язану з міжнародним визнанням…

57 хвилин ago

У Львові жінка стріляла по мікроавтобусу з поліцією та ТЦК

У Львові жінка відкрила вогонь по автомобілю, в якому знаходилися співробітники поліції та територіального центру…

59 хвилин ago

“Я жертва насильства”: українська модель прокоментувала появу свого імені у файлах Епштейна

Українська модель Аліна Бойко виступила з публічною заявою після того, як її ім’я з’явилося в…

1 годину ago