Штучний Інтелект від Meta імітує людське сприйняття

Штучний Інтелект від Meta імітує людське сприйняття

Meta викладає код у відкритий доступ штучного інтелекту під назвою ImageBind, який прогнозує зв’язки між даними подібно до того, як люди сприймають або уявляють собі навколишнє середовище. У той час як генератори зображень, такі як Midjourney, Stable Diffusion і DALL-E 2, пов’язують слова із зображеннями, дозволяючи створювати візуальні сцени на основі лише текстового опису, ImageBind має ширші можливості. Він може пов’язувати текст, зображення або відео, аудіо, 3D-вимірювання, дані про температуру і дані про рух – і робить це без необхідності попереднього тренування на кожній можливості. Це рання стадія фреймворку, який з часом зможе генерувати складні середовища з таких простих вхідних даних, як текстова підказка, зображення чи аудіозапис (або їхня комбінація).

Таким чином ImageBind можна розглядати як наближення машинного навчання до людського, пише "root-nation". 

Наприклад, якщо людина стоїть в динамічному середовищі, наприклад, на жвавій міській вулиці, мозок (здебільшого несвідомо) поглинає види, звуки та інші сенсорні відчуття, щоб отримати інформацію про автомобілі, що проїжджають повз, високі будівлі, погоду та багато іншого. Люди та інші тварини еволюціонували, щоб обробляти ці дані для наших генетичних переваг: виживання і передачі нашої ДНК. (Чим більше ви знаєте про своє оточення, тим більше ви можете уникнути небезпеки та пристосуватися до свого середовища для кращого виживання і процвітання). Оскільки комп’ютери наближаються до імітації мультисенсорних зв’язків тварин, вони можуть використовувати ці зв’язки, щоб генерувати повністю реалізовані сцени на основі лише обмежених фрагментів даних.

Таким чином, щоб створити “бассет-хаунд в костюмі Гендальфа, який балансує на пляжному м’ячі” і отримати відносно реалістичну фотографію цієї дивної сцени, мультимодальний інструмент ШІ, такий як ImageBind, може в кінцевому підсумку створити відео з собакою з відповідними звуками, включаючи детальну вітальню, температуру в кімнаті та точне місцезнаходження собаки й всіх інших учасників сцени.

Це створює відмінні можливості для створення анімації зі статичних зображень, поєднуючи їх зі звуковими підказками, – зазначають дослідники Meta у своєму блозі, орієнтованому на розробників. Наприклад, творець може поєднати зображення з будильником і півнем, що кукурікає, і використати звукову підказку для сегментації півня або звук будильника для сегментації годинника та анімувати обидва у відеопослідовності.

Нагадаємо, Німецька компанія планує виготовляти в Україні системи ППО

Андрій Самойленко - pravdatutnews.com

Loading...
Load next