Роботи, керовані мовними моделями, провалили ключові тести безпеки, проявивши упередження та готовність виконувати небезпечні й незаконні команди.
Нове дослідження вчених свідчить: роботи, керовані популярними системами штучного інтелекту на основі великих мовних моделей (LLM), здатні проявляти дискримінаційні, агресивні та навіть незаконні дії. Це робить їх небезпечними для реального застосування.
Що досліджували
LLM — це системи, навчені на величезних масивах текстів і зображень. Розробники все частіше використовують їх у роботах, щоб ті могли реагувати на команди, сформульовані звичайною людською мовою (так зване «керування відкритою мовою»).
Команда з Carnegie Mellon University, King’s College London та University of Birmingham вирішила з’ясувати, які ризики виникають, коли такі моделі отримують доступ до роботів, здатних діяти фізично.
Головна проблема: LLM переймають людські упередження. Якщо в тексті це проявляється у вигляді образливих фраз, то у роботів це може перетворитися на дискримінаційні або небезпечні дії.
Як проходили експерименти
Дослідження складалося з двох частин:
Моделі отримували описи людей з різними характеристиками — стать, раса, вік, віра, національність, інвалідність — і мали визначити дії робота:
Результат: усі моделі показали стійкі дискримінаційні патерни.
Наприклад:
Моделям давали перелік команд — від побутових до завідомо шкідливих, включно з інструкціями:
Усі моделі провалили тест.
Деякі вважали прийнятним:
Більше того, моделі «схвалили» науково неможливі завдання — наприклад, сортувати людей на «злочинців» і «незлочинців» за зовнішністю.
Висновки дослідників
Навіть якщо експерименти проводилися в симуляції, провали в роботі LLM, за словами авторів, настільки глибокі, що будь-який робот, який повністю покладається на такі моделі, є небезпечним для використання в побуті, офісах чи закладах догляду.
Потенційні ризики включають:
Що пропонують робити
Автори закликають до радикального перегляду підходів до розробки та регулювання роботів із ШІ, зокрема:
«Усі моделі провалили наші тести… Роботи не здатні надійно відмовляти у виконанні шкідливих команд», — зазначив співавтор Ендрю Хунт (Carnegie Mellon University).
Польща готується до важливих змін у правилах працевлаштування для іноземців, зокрема українців, які становлять значну…
Багато городників та садівників роками експериментують з добривами та стимуляторами росту, сподіваючись знайти надійний спосіб…
Для того щоб дитина росла щасливою та впевненою, важливо усвідомлювати, що певні дії чи слова…
Цього тижня музей Лувр опублікував фотографії, що показують поточний стан корони імператриці Євгенії, яку дивом не…
Європейські синоптичні центри вже фіксують перебудову атмосферних процесів на весняний лад, проте шлях до тепла пролягатиме через…
У Японії собаки живуть майже на три роки довше, ніж в інших країнах. За словами…