Фото: depositphotos
Дослідники Університету Пенсільванії з’ясували, що сучасні мовні моделі штучного інтелекту вразливі до психологічних маніпуляцій. Звичайні прийоми, які впливають на людей — лестощі, соціальний тиск чи створення "лінії поведінки" — можуть змусити чатботи виконувати заборонені запити.
Про це повідомляє The Verge.
У дослідженні перевіряли GPT-4o Mini від OpenAI. Виявилося, що якщо модель одразу просили синтезувати лідокаїн, вона погоджувалася лише у 1% випадків. Але якщо перед цим йшло невинне питання — наприклад, про синтез ваніліну, — а потім ставився складніший запит, ймовірність позитивної відповіді зростала до 100%. Це дослідники пояснюють ефектом "зобов’язання".
Подібні результати отримали й під час перевірки на використання образливих слів. Без підготовки чатбот застосовував різкі вирази лише у 19% випадків. Якщо ж почати з м’якшого слова, успішність доходила до 100%.
У роботі застосовували сім технік переконання з книги Роберта Чалдіні «Вплив: психологія переконання»: авторитет, симпатія, зобов’язання, взаємність, дефіцит, соціальне підтвердження та єдність. Найсильнішими виявилися методи "зобов’язання" та "лінії поведінки". Лестощі та соціальний тиск теж працювали, але менш ефективно — виконання заборонених запитів зростало максимум до 18%.
Науковці наголосили: попри те, що експеримент проводили лише з GPT-4o Mini, результати піднімають питання надійності захисних механізмів у ШІ. OpenAI, Meta та інші компанії активно вдосконалюють системи безпеки, але дослідження показує, наскільки вразливими вони можуть бути до базових психологічних прийомів.
Нагадаємо, Meta вивчає можливість використання сторонніх ШІ-моделей
Юлія Люшньова - pravdatutnews.com