ШІ піддається маніпуляціям, як і люди – дослідження

Вчені протестували сім методів впливу, і більшість із них виявилися дієвими проти систем безпеки чатботів

Фото: depositphotos

Дослідники Університету Пенсільванії з’ясували, що сучасні мовні моделі штучного інтелекту вразливі до психологічних маніпуляцій. Звичайні прийоми, які впливають на людей — лестощі, соціальний тиск чи створення "лінії поведінки" — можуть змусити чатботи виконувати заборонені запити.

Про це повідомляє The Verge.

У дослідженні перевіряли GPT-4o Mini від OpenAI. Виявилося, що якщо модель одразу просили синтезувати лідокаїн, вона погоджувалася лише у 1% випадків. Але якщо перед цим йшло невинне питання — наприклад, про синтез ваніліну, — а потім ставився складніший запит, ймовірність позитивної відповіді зростала до 100%. Це дослідники пояснюють ефектом "зобов’язання".

Подібні результати отримали й під час перевірки на використання образливих слів. Без підготовки чатбот застосовував різкі вирази лише у 19% випадків. Якщо ж почати з м’якшого слова, успішність доходила до 100%.

У роботі застосовували сім технік переконання з книги Роберта Чалдіні «Вплив: психологія переконання»: авторитет, симпатія, зобов’язання, взаємність, дефіцит, соціальне підтвердження та єдність. Найсильнішими виявилися методи "зобов’язання" та "лінії поведінки". Лестощі та соціальний тиск теж працювали, але менш ефективно — виконання заборонених запитів зростало максимум до 18%.

Науковці наголосили: попри те, що експеримент проводили лише з GPT-4o Mini, результати піднімають питання надійності захисних механізмів у ШІ. OpenAI, Meta та інші компанії активно вдосконалюють системи безпеки, але дослідження показує, наскільки вразливими вони можуть бути до базових психологічних прийомів.

Нагадаємо, Meta вивчає можливість використання сторонніх ШІ-моделей

Юлія Люшньова - pravdatutnews.com

Теги:

штучний інтелект