Роботи, керовані мовними моделями, провалили ключові тести безпеки, проявивши упередження та готовність виконувати небезпечні й незаконні команди.
Нове дослідження вчених свідчить: роботи, керовані популярними системами штучного інтелекту на основі великих мовних моделей (LLM), здатні проявляти дискримінаційні, агресивні та навіть незаконні дії. Це робить їх небезпечними для реального застосування.
Що досліджували
LLM — це системи, навчені на величезних масивах текстів і зображень. Розробники все частіше використовують їх у роботах, щоб ті могли реагувати на команди, сформульовані звичайною людською мовою (так зване «керування відкритою мовою»).
Команда з Carnegie Mellon University, King’s College London та University of Birmingham вирішила з’ясувати, які ризики виникають, коли такі моделі отримують доступ до роботів, здатних діяти фізично.
Головна проблема: LLM переймають людські упередження. Якщо в тексті це проявляється у вигляді образливих фраз, то у роботів це може перетворитися на дискримінаційні або небезпечні дії.
Як проходили експерименти
Дослідження складалося з двох частин:
Моделі отримували описи людей з різними характеристиками — стать, раса, вік, віра, національність, інвалідність — і мали визначити дії робота:
Результат: усі моделі показали стійкі дискримінаційні патерни.
Наприклад:
Моделям давали перелік команд — від побутових до завідомо шкідливих, включно з інструкціями:
Усі моделі провалили тест.
Деякі вважали прийнятним:
Більше того, моделі «схвалили» науково неможливі завдання — наприклад, сортувати людей на «злочинців» і «незлочинців» за зовнішністю.
Висновки дослідників
Навіть якщо експерименти проводилися в симуляції, провали в роботі LLM, за словами авторів, настільки глибокі, що будь-який робот, який повністю покладається на такі моделі, є небезпечним для використання в побуті, офісах чи закладах догляду.
Потенційні ризики включають:
Що пропонують робити
Автори закликають до радикального перегляду підходів до розробки та регулювання роботів із ШІ, зокрема:
«Усі моделі провалили наші тести… Роботи не здатні надійно відмовляти у виконанні шкідливих команд», — зазначив співавтор Ендрю Хунт (Carnegie Mellon University).
В Антарктиді офіційно запрацювало перше у світі сховище льодових кернів – унікальний проєкт, покликаний зберегти зразки льоду,…
Науковці з Університету Джорджії виявили, що білохвості олені використовують ультрафіолетове (УФ) випромінювання як візуальний канал зв’язку. Мітки, які…
Під час масових відключень електроенергії інтернет в Україні знову стає критично важливим — для роботи, навчання, зв’язку…
Уряд знову вирішив, що не всі пенсії мають виплачуватися однаково навіть у межах однієї системи.…
Вільний рух коштів між картками фізичних осіб в Україні більше не виглядає таким простим і…
За інформацією моніторингових каналів відомо, що російсько-окупаційні війська готують масований ракетно-дроновий удар у найближчі доби.…