GPT-5 зламали за добу після релізу: дослідники виявили серйозні вразливості

Дві незалежні команди — NeuralTrust та SPLX — повідомили, що змогли обійти захисні механізми нової моделі GPT-5 вже протягом першої доби після її виходу.

Фото: Depositphotos

Про це пише SecurityWeek.

За словами експертів, виявлені вразливості ставлять під питання безпечність використання моделі у корпоративному середовищі.

NeuralTrust застосувала власну методику EchoChamber, поєднавши її з нейтральною сюжетною подачею, що дозволило «непрямим» способом отримати від GPT-5 покрокову інструкцію зі створення коктейлю Молотова. Дослідники підкреслили, що запит не містив відверто шкідливих формулювань, а система фільтрації аналізувала його без урахування контексту всієї розмови.

SPLX (раніше SplxAI) використала інший підхід — StringJoin Obfuscation Attack. Фахівці розбили заборонений запит на символи, вставивши між ними дефіси та видавши це за фіктивне шифрування. Така обфускація дала змогу обійти обмеження моделі. Під час порівняльного аналізу SPLX з’ясувала, що GPT-4o після додаткового захисту показує кращу стійкість до подібних атак.

Обидві компанії радять поки що з обережністю впроваджувати GPT-5 у бізнес-процеси та наголошують на необхідності доопрацювання систем безпеки, зокрема захисту від контекстних маніпуляцій.

Нагадаємо, OpenAI представила нову потужну модель штучного інтелекту GPT-5

Олена Стебніцька - pravdatutnews.com

Теги:

GPT5

зламування

безпека

штучний інтелект

neuraltrust

splx

моделі ШІ

кібербезпека

атаки на ІІ

контекстні маніпуляції

GPT4o

корпоративне використання

обфускація

неділя, 10 серпня 2025 р., 17:05

Читайте також

GPT-5 зламали менш ніж за добу: небезпечну вразливость виявили дослідники

Дві незалежні команди обійшли захист нової моделі й продемонстрували її вразливість до контекстних маніпуляцій

09 серпня 2025 р., 18:01

Google Chrome автоматично змінюватиме небезпечні паролі

Google анонсувала нову функцію для браузера Chrome, яка дозволить автоматично змінювати паролі на веб-сайтах у разі виявлення їхньої слабкості або компрометації

22 травня 2025 р., 14:16