Новий метод дозволяє обманювати чат-боти ChatGPT і Gemini – дослідники

Новий метод дозволяє обманювати чат-боти ChatGPT і Gemini – дослідники
Група науковців з Intel, Університету штату Айдахо та Університету Іллінойсу представила нову техніку, що дозволяє обійти системи безпеки у великих мовних моделях

Фото: Pexels

Група науковців з Intel, Університету штату Айдахо та Університету Іллінойсу представила нову техніку, що дозволяє обійти системи безпеки у великих мовних моделях, зокрема ChatGPT та Gemini.

Про це повідомляє видання 404 Media.

У межах свого дослідження вчені виявили, що штучний інтелект можна змусити видавати заборонену чи шкідливу інформацію, якщо звертатися до нього за допомогою складних, багатошарових або неоднозначних запитів, зокрема з посиланнями на неіснуючі джерела. Такий підхід отримав назву “інформаційне перевантаження”.

Для реалізації цієї стратегії дослідники застосували спеціально створений інструмент під назвою InfoFlood. Він автоматизує подачу великого обсягу текстових даних, через що модель дезорієнтується та іноді ігнорує внутрішні обмеження безпеки, надаючи небажані відповіді.

Уразливість полягає в тому, що LLM орієнтуються передусім на зовнішню форму тексту, а не на його глибинний зміст. Це дозволяє зловмисникам маскувати небезпечні запити й обходити захисні механізми моделі.

Як зазначають автори дослідження, вони діють у межах політики відповідального розкриття: результати вже готуються до передачі розробникам провідних LLM. Окрім опису вразливості, науковці також нададуть можливе рішення, розроблене під час дослідження.

"Більшість мовних моделей покладаються на захист на етапах введення та виведення інформації. InfoFlood можна використати для тренування цих систем безпеки — він допомагає виокремлювати змістовно небезпечні елементи навіть у заплутаних запитах, що дозволить підвищити стійкість моделей до подібних атак", — підкреслюється у звіті.

Нагадаємо, OpenAI посилила заходи безпеки через підозри у шпигунстві з боку китайського стартапу DeepSeek

Олена Стебніцька - pravdatutnews.com

Читайте також
Китайські вчені зафіксували ознаки "людського" розуміння світу у ШІ Китайські вчені зафіксували ознаки "людського" розуміння світу у ШІ
Великі мовні моделі, як-от ChatGPT і Gemini, демонструють спонтанне розуміння навколишнього світу, подібне до людського
Штучний інтелект досяг успіху в кодуванні, але не в історії — нове дослідження Штучний інтелект досяг успіху в кодуванні, але не в історії — нове дослідження
Нове дослідження показало, що хоча штучний інтелект ефективно вирішує завдання, пов'язані з кодуванням, йому важко давати точні відповіді на історичні питання.
Китайська DeepSeek представила оновлену ШІ-модель R1 Китайська DeepSeek представила оновлену ШІ-модель R1
Компанія DeepSeek презентувала покращену версію своєї ШІ-моделі R1, здатну виконувати складні логічні завдання
Load next