Фото: Google DeepMind
Google DeepMind анонсував третє покоління своєї моделі світу – Genie 3, яка вміє генерувати інтерактивні 3D-середовища на основі текстових запитів. Ці світи нагадують ігрові, але створюються повністю за допомогою штучного інтелекту, без ручної розробки.
У порівнянні з попередніми версіями, Genie 3 отримала помітне покращення в тривалості сесій: якщо раніше симульовані простори існували лише десятки секунд, тепер вони зберігаються протягом кількох хвилин. Крім того, модель навчилася запам’ятовувати візуальні деталі – наприклад, якщо в сцені є напис або об’єкт на стіні, він залишиться на своєму місці навіть після того, як користувач відвернеться.
Систему розробляє команда, яку очолює колишній розробник Sora — відеогенератора від OpenAI. Результат – динамічні середовища у роздільній здатності 720p із частотою 24 кадри на секунду, здатні зберігати короткострокову "візуальну пам’ять" та підтримувати зміну параметрів у реальному часі. Наприклад, користувач може змінити погоду або додати нових персонажів за допомогою простого текстового запиту.
Genie 3 належить до класу "моделей світу" – систем, які створюють симульоване оточення для навчання, тестування роботів або створення ігор. У грудні 2024 року DeepMind презентував Genie 2, яка могла перетворювати зображення на інтерактивні сцени. Нова версія суттєво розширює функціональність.
Поки що Genie 3 доступна лише обмеженій кількості дослідників у межах закритого тестування. У Google наголошують, що спершу планують вивчити потенційні ризики використання технології, перш ніж відкривати її для широкого загалу.
Серед недоліків нинішньої версії – обмежена інтерпретація текстів у сценах: написи відображаються лише в тому випадку, якщо вони були прямо вказані у запиті. Також, попри загальну інтерактивність, користувачі все ще не мають повної свободи дій у віртуальних світах.
Нагадаємо, OpenAI впровадила нову функцію в ChatGPT для нагадувань про перерви
Олена Стебніцька - pravdatutnews.com