ШІ поступився математикам у складному тесті: дослідники зафіксували обмеження нейромереж

Фото: depositphotos
Передові системи штучного інтелекту все ще поступаються людям у складних математичних дослідженнях. Про це свідчить експеримент у межах проєкту First Proof, який вважається одним із найжорсткіших тестів для оцінки математичних можливостей ШІ, повідомляє WION.
У межах дослідження чотирьом сучасним моделям запропонували розв’язати десять задач дослідницького рівня. Важливо, що ці завдання не входили до навчальних даних моделей, а їхні відповіді перевіряли незалежні експерти-математики, що виключало можливість «підказок» або відтворення відомих рішень.
Організатори також підкреслили, що експеримент проходив автономно, без втручання людей у процес виконання завдань. До участі допускалися лише загальнодоступні системи штучного інтелекту, зокрема OpenAI з ChatGPT 5.5 Pro, а також розробки академічних команд із провідних університетів США та Швейцарії.
Деякі учасники використовували спеціальні автоматизовані системи («хернеси»), які змушували моделі багаторазово перевіряти та уточнювати свої відповіді.
Результати показали, що найуспішніша система змогла правильно розв’язати лише 6 із 10 задач. Оскільки всі завдання вже були відомі професійним математикам, це підтвердило: у роботі з новими дослідницькими проблемами людська експертиза поки що залишається сильнішою за штучний інтелект.
Автори дослідження зазначають, що ШІ ще потребує розвитку, перш ніж зможе повноцінно виступати як автономний інструмент для математичних доказів і дослідницької роботи.
До слова, дослідження: європейський ШІ Mistral гірше виявляє російську пропаганду, ніж американські та китайські моделі.
Стрілець Діана - pravdatutnews.com





