Навіть найновіші моделі ШІ «ступорять» і «тупіють» у діалозі з людиною – Microsoft Research

Дослідження підтвердило скарги користувачів, мовляв, чат-боти на основі штучного інтелекту дають все гірші відповіді при тривалій роботі.

Фото: pixelplex.io

Microsoft Research та Salesforce разом проаналізували понад 200 000 розмов ШІ з найсучасніших великих мовних моделей (LLM), включаючи GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 та Llama 4. Виявилось, що вони й справді часто помиляються, впадаючи у ступор, коли завдання розбиваються на природну для людей багатосторонню розмову, пише NeuroNad.

Наприклад, GPT-4.1 та Gemini 2.5 Pro, досягають 90% успіху з одиничними запитами. Однак під час триваліших розмов їхня продуктивність падає до 65%.

Дослідники виявили, що моделі не втрачають своєї фундаментальної здатності розв’язувати проблему – вона зменшується лише приблизно на 15%. Натомість їхня ненадійність різко росте: на 112%. Тобто, моделі все ще “знають”, як виконувати роботу, але вони стають надзвичайно непослідовними, ставлячи під сумнів те, чи зможуть вони успішно відстежити контекст розмови.

Чому так?

Дослідження виявило кілька “винуватців”, які призводять до цієї деградації:

По-перше, LLM страждають від передчасної генерації: вони часто намагаються надати остаточне рішення, перш ніж користувач закінчить пояснювати вимоги. Як тільки модель робить неправильне припущення на ранньому етапі, вона “чіпляється” за цю помилку. А потім, замість того щоб виправляти себе, коли надходить нова інформація, ШІ спирається на свою початкову помилку, і робить через це ще більше помилок.

По-друге, спостерігалося явище “роздуття відповідей”, коли відповіді ставали на 20–300 % довшими. Ці довші відповіді вводять більше “галюцинаційних” припущень, які потім вбудовуються в постійний контекст розмови. Навіть найновіші моделі ШІ, які використовують додаткові “токени мислення” для обробки логіки, не показали значного покращення в цьому випадку.

Що робити?

Наразі є єдиний ефективний варіант: перестати ставитися до ШІ як до партнера в розмові. Щоб отримати найкращі результати, користувачі повинні надавати всі необхідні дані, обмеження та інструкції в одному, вичерпному “мега-запиті”, а не пояснювати усе вже в ході в діалогу.

Юрій Никорак - pravdatutnews.com

Теги:

ші

чат-боти

дослідження

GPT-4.1

Gemini 2.5 Pro

LLM

неділя, 22 лютого 2026 р., 23:23

Читайте також

«ChatGPT-психоз»: реальні випадки, які налякали науковців

Новий феномен пов'язують із надмірним використанням ШІ

28 листопада 2025 р., 19:42

Google випустив 50-сторінковий гайд зі створення ШІ-агентів для автоматизації реальних завдань

Компанія Google випустила детальний 50-сторінковий посібник про те, як створювати просунутих ШІ-агентів, здатних виконувати реальні завдання та автоматизувати рутинні процеси

11 листопада 2025 р., 15:23

ШІ погано імітує сварки в соцмережах

Згідно з роботою вчених із університетів Цюриха, Амстердама, Дюка та Нью-Йорка, пости, створені ШІ, можна легко відрізнити від людських з точністю 70–80%.

10 листопада 2025 р., 14:18

Рекомендовані

Ціна війни Путіна в Україні: втрати військових з обох сторін перевищили 2 млн, - The New York Times

Згідно з новим дослідженням, за чотири роки, упродовж яких Росія веде війну проти свого сусіда, понад два мільйони російських та українських військових були вбиті або поранені. До того ж, навесні російська армія вперше з 2024 року почала втрачати більше території, ніж захоплювати.

01 липня 2026 р., 22:52

Ревматологи назвали 5 видів продуктів, що руйнують наші суглоби

Ревматологи наголошують: біль у суглобах часто посилюється не лише через хвороби, а й через щоденний раціон.

30 червня 2026 р., 23:33

Джонні Депп шалено ревнував колишню не до Маска, а до її подруги

Британська модель і акторка Кара Делевінь розповіла, що мала романтичні стосунки з акторкою Ембер Герд після її розлучення з Джонні Деппом.

30 червня 2026 р., 23:13

Loading...

Load next

Топ теми

ЗСУ завдали ударів по НПЗ у росії та стратегічному мосту в окупованій Луганщині

У ніч на 2 липня Сили оборони України уразили нафтопереробний завод у Нижньогородській області рф, а також низку військових об’єктів на тимчасово окупованих територіях

02 липня 2026 р., 11:03

Ціна війни Путіна в Україні: втрати військових з обох сторін перевищили 2 млн, - The New York Times

Згідно з новим дослідженням, за чотири роки, упродовж яких Росія веде війну проти свого сусіда, понад два мільйони російських та українських військових були вбиті або поранені. До того ж, навесні російська армія вперше з 2024 року почала втрачати більше території, ніж захоплювати.

01 липня 2026 р., 22:52

ЗСУ за добу ліквідували ще 1210 окупантів і знищили 71 артилерійську систему

Від початку повномасштабної війни втрати російської армії перевищили 1,4 мільйона військових

01 липня 2026 р., 07:46

Останні новини

03 липня

09:17 Дрони атакували Маріуполь: після вибухів спалахнули пожежі

09:05 Яка магнітна буря накриє Землю 3 липня

08:47 Росія атакувала Кривий Ріг і Сумщину: є загиблі та поранені

08:26 У Бєлгороді пролунали вибухи: повідомляють про перебої зі світлом і водою

08:19 Росія за добу втратила ще 1 250 військових і понад 2 тисячі безпілотників – Генштаб

08:03 Гороскоп на день: прогноз для всіх знаків зодіаку

07:47 Росія не має вже жодного іншого аргументу на користь своєї війни, крім своєї балістики – звернення Президента

07:07 Щоб двигун служив довше: просте літнє правило від автомеханіків

У літню спеку автомобільний двигун працює з підвищеним навантаженням, особливо після швидкісної їзди чи тривалих поїздок.

06:36 Дієтолог підказав найдієвіший метод зберегти запас літніх вітамінів надовше

Дієтологи радять: найкращий спосіб зберегти запас літніх вітамінів — заморожувати ягоди у момент їхньої стиглості.

06:16 Бій з Усиком зруйнував особисте життя Верховена: він скасував весілля та розійшовся з нареченою

Легендарний нідерландський кікбоксер Ріко Верховен і фітнес-тренерка Наомі ван Беєм офіційно повідомили про завершення своїх стосунків.

00:21 Нова ера розваг: Чому весь світ обирає віртуальний азарт

Дізнайся все про сучасні азартні ігри онлайн. Огляд популярних категорій, від слотів до Live-казино, та поради для розумного вибору ігрового формату

Реклама

00:07 «Саме той»: за кліп у ліжку з Олегом Скрипкою розрахувалися харчами

Відома українська співачка Уляна Ройс розкрила подробиці співпраці з музикантом Олегом Скрипкою.

02 липня

23:44 111 тисяч восьмилапих хижаків разом сплели павутину, якою можна впіймати кита

У Північній печері, що на кордоні Греції та Албанії, вчені знайшли найбільшу павутину у світі — її площа сягає 106 м², і за міцністю вона могла б утримати навіть кита.

23:33 Щоб не старіти і не хворіти: 6 природних джерел антиоксидантів для серця й імунітету

Антиоксиданти — природні речовини, що захищають клітини від ушкоджень вільними радикалами. Дієтологи радять включати до раціону різні продукти, адже кожен із них має власний набір антиоксидантів і діє по-своєму.

23:23 Новий BYD Seal 08: до 684 к. с., до 1660 км ходу і зарядка за 9 хвилин

Новий BYD Seal 08 став флагманом сімейства Ocean: великий седан F класу з потужністю до 684 к.с., запасом ходу до 1660 км та ультрашвидкою зарядкою за 9 хвилин.

23:13 Тестування визначили 5 найкращих Android-смартфонів 2026 року: від бюджетних до ультрапреміальних

Експерти Tom’s Guide за результатами тестувань назвали п’ять найкращих Android смартфонів 2026 року: Samsung Galaxy S26 Ultra, Google Pixel 10a, OnePlus 15, Google Pixel 10 та Motorola Razr Fold.

23:03 Еністон врешті показала на 7 років молодшого коханого-гіпнотизера

Дженніфер Еністон показала нові фото зі своїм бойфрендом, 50-річним Джимом Кертісом — гіпнотерапевтом, із яким акторка будує спокійні, усвідомлені стосунки після років самотності.

22:52 Німеччина запровадила жорсткіші правила соцдопомоги: що змінилось для українців

З 1 липня, українські біженці в Німеччині, а також безробітні в цій країні замість соціальної допомоги для громадян (Bürgergeld) отримуватимуть так званий базовий дохід (Grundsicherung).

22:42 Чому ліки іноді «не спрацьовують»: лікарка пояснила нюанси

Фахівці наголошують: важливо не лише приймати ефективні ліки, а й правильно їх запивати.

22:32 Які нові авто найбільше купують українці у 2026-му: Toyota лідирує, Duster – бестселер

У першому півріччі 2026 року український авторинок продемонстрував стримане зростання.

21:43 Погода в Україні 3 липня: де чекати дощів та негоди

У низці областей прогнозують значні дощі, грози, град і шквали до 20 м/с.

21:39 Кальцій і вітамін D не завжди запобігають переломам: що показало велике дослідження

Метааналіз 69 досліджень показав, що для більшості дорослих без лікування остеопорозу добавки не дають клінічно значущого захисту від падінь і переломів.