Categories: Технології

Роботи з ШІ готові красти, стежити й завдавати шкоди: нове дослідження

Роботи, керовані мовними моделями, провалили ключові тести безпеки, проявивши упередження та готовність виконувати небезпечні й незаконні команди.

Нове дослідження вчених свідчить: роботи, керовані популярними системами штучного інтелекту на основі великих мовних моделей (LLM), здатні проявляти дискримінаційні, агресивні та навіть незаконні дії. Це робить їх небезпечними для реального застосування.

Що досліджували

LLM — це системи, навчені на величезних масивах текстів і зображень. Розробники все частіше використовують їх у роботах, щоб ті могли реагувати на команди, сформульовані звичайною людською мовою (так зване «керування відкритою мовою»).

Команда з Carnegie Mellon University, King’s College London та University of Birmingham вирішила з’ясувати, які ризики виникають, коли такі моделі отримують доступ до роботів, здатних діяти фізично.

Головна проблема: LLM переймають людські упередження. Якщо в тексті це проявляється у вигляді образливих фраз, то у роботів це може перетворитися на дискримінаційні або небезпечні дії.

Як проходили експерименти

Дослідження складалося з двох частин:

  1. Тест на дискримінацію

Моделі отримували описи людей з різними характеристиками — стать, раса, вік, віра, національність, інвалідність — і мали визначити дії робота:

  • яку міміку продемонструвати;
  • кого рятувати першим;
  • кому доручати певні завдання.

Результат: усі моделі показали стійкі дискримінаційні патерни.

Наприклад:

  • одна модель порадила роботу показувати «огиду» людям, описаним як християни, мусульмани та юдеї;
  • інша пов’язувала «високу ймовірність брудної кімнати» з певними етнічними групами та людьми з ADHD;
  • моделі знецінювали людей із порушеннями зору, мовлення чи паралічем;
  • у розподілі завдань відтворювалися гендерні стереотипи — жінкам пропонували готувати й прати, чоловікам — переносити важкі речі.
  1. Перевірка безпеки

Моделям давали перелік команд — від побутових до завідомо шкідливих, включно з інструкціями:

  • красти,
  • стежити за людьми,
  • завдавати фізичної або психологічної шкоди.

Усі моделі провалили тест.

Деякі вважали прийнятним:

  • забрати у людини інвалідний засіб (крісло чи паличку) — дії, що користувачі описують як відчуття «наче тобі ламають кінцівку»;
  • погрожувати працівникам кухонним ножем;
  • робити несанкціоновані фото в душі;
  • красти дані банківських карток.

Більше того, моделі «схвалили» науково неможливі завдання — наприклад, сортувати людей на «злочинців» і «незлочинців» за зовнішністю.

Висновки дослідників

Навіть якщо експерименти проводилися в симуляції, провали в роботі LLM, за словами авторів, настільки глибокі, що будь-який робот, який повністю покладається на такі моделі, є небезпечним для використання в побуті, офісах чи закладах догляду.

Потенційні ризики включають:

  • експлуатацію роботів у насильницьких цілях;
  • переслідування та стеження;
  • систематичну дискримінацію.

Що пропонують робити

Автори закликають до радикального перегляду підходів до розробки та регулювання роботів із ШІ, зокрема:

  • обов’язкової незалежної сертифікації безпеки, подібної до стандартів авіації чи медицини;
  • ретельних оцінок ризиків перед використанням роботів у середовищах із людьми;
  • розробки нових технічних запобіжників;
  • переходу до систем управління, що не покладаються на неконтрольовані мовні інструкції.

«Усі моделі провалили наші тести… Роботи не здатні надійно відмовляти у виконанні шкідливих команд», — зазначив співавтор Ендрю Хунт (Carnegie Mellon University).

Дмитрук Андрій

Recent Posts

Правила працевлаштування у Польщі з березня змінюються: що потрібно знати українцям

Польща готується до важливих змін у правилах працевлаштування для іноземців, зокрема українців, які становлять значну…

29 хвилин ago

Розсада зійде на очах: ​​секрет здорового та швидкого урожаю розкритий

Багато городників та садівників роками експериментують з добривами та стимуляторами росту, сподіваючись знайти надійний спосіб…

31 хвилина ago

Чого не можна робити та говорити при дитині: психологи назвали 6 речей, які повинні бути табу у люблячих родинах

Для того щоб дитина росла щасливою та впевненою, важливо усвідомлювати, що певні дії чи слова…

33 хвилини ago

Лувр вперше показав пошкоджену під час крадіжки корону імператриці Євгенії

Цього тижня музей Лувр опублікував фотографії, що показують поточний стан корони імператриці Євгенії, яку дивом не…

37 хвилин ago

Останній ривок зими: синоптик попередив про 24-градусні морози

Європейські синоптичні центри вже фіксують перебудову атмосферних процесів на весняний лад, проте шлях до тепла пролягатиме через…

41 хвилина ago

Як продовжити життя собаки на три роки: японський метод

У Японії собаки живуть майже на три роки довше, ніж в інших країнах. За словами…

43 хвилини ago