Штучний інтелект досяг успіху в кодуванні, але не в історії — нове дослідження
Штучний інтелект досяг значних успіхів у деяких сферах, таких як кодування, але його здатність справлятися з історичними запитаннями залишає бажати кращого, згідно з новим дослідженням.
Про це повідомляє TechCrunch.
Команда дослідників розробила спеціальний тест для перевірки знань трьох провідних мовних моделей — GPT-4 від OpenAI, Llama від Meta та Gemini від Google — з історії. Тест, відомий як Hist-LLM, використовує базу даних історичних знань Seshat Global History Databank для оцінки правильності відповідей. Результати дослідження, представлені на конференції NeurIPS, виявили, що навіть найкраща з моделей, GPT-4 Turbo, показала лише 46% точності, що ледь перевищує рівень випадкового вгадування.
Дослідники зазначили, що хоча великі мовні моделі ефективно справляються з базовими фактами, вони все ще не здатні глибоко розуміти складні історичні питання, які вимагають більш тонкого аналізу. Причиною такої слабкої роботи на історичних запитаннях, ймовірно, є схильність моделей екстраполювати дані з відомих та помітних історичних подій, що ускладнює їхнє опрацювання менш вивчених фактів.
Наприклад, GPT-4 неправильно відповів на запитання про наявність професійної армії в Давньому Єгипті, відповівши, що вона була, хоча правильна відповідь — ні. Дослідники припустили, що це сталося через надмірне використання даних про інші імперії, які мали постійні армії, на відміну від Єгипту.
Якщо вам скажуть А і В 100 разів і С 1 раз, а потім поставлять запитання про С, ви можете просто згадати А і Б і спробувати екстраполювати відповідь із них, — сказала дель Ріо-Чанона.
Результати також вказують на наявність упереджень у навчальних даних моделей, особливо в питаннях, що стосуються певних регіонів, таких як Африка на південь від Сахари.
Хоча штучний інтелект ще не може замінити людей у певних сферах історії, дослідники все ще сподіваються на його використання в майбутньому для допомоги історикам.
Загалом, хоча наші результати висвітлюють сфери, де LLM потребують удосконалення, вони також підкреслюють потенціал цих моделей для допомоги в історичних дослідженнях, - пише TechCrunch.
Нагадаємо, OpenAI запустила тестову версію функції нагадувань у ChatGPT для платних користувачів
Юлія Педюк - pravdatutnews.com