Новини

Meta представила інноваційний штучний інтелект

Meta представляє штучний інтелект ImageBind.У новаторській розробці Meta представила ImageBind, інноваційну модель штучного інтелекту, яка долає розрив між машинами та людьми з точки зору цілісного навчання за допомогою багатьох модальностей, інформує Portaltele.

На відміну від традиційних систем штучного інтелекту, які покладаються на конкретні вбудовування для кожної модальності, ImageBind створює спільний простір представлення, що дозволяє машинам одночасно вивчати текст, зображення/відео, аудіо, одиниці вимірювання глибини, термічні та інерційні вимірювання (IMU). 

ImageBind включає кілька сенсорних входів для створення медіа

ImageBind являє собою значний крок вперед у можливостях штучного інтелекту, долаючи обмеження попередніх спеціалізованих моделей, навчених індивідуальним модальностям. Включаючи численні сенсорні входи, ImageBind пропонує машинам комплексне розуміння, яке поєднує різні аспекти інформації. Наприклад, Make-A-Scene від Meta може використовувати ImageBind для створення зображень на основі аудіо, дозволяючи створювати захоплюючі враження, такі як тропічні ліси чи галасливі ринки. Крім того, ImageBind відкриває двері для більш точного розпізнавання вмісту, модерації та креативного дизайну, включаючи безперебійне створення медіафайлів і розширені функції мультимодального пошуку.

Як частина ширших зусиль Meta з розробки мультимодальних систем штучного інтелекту, ImageBind закладає фундамент для дослідників, щоб досліджувати нові кордони. Здатність цієї моделі поєднувати 3D-сенсори та сенсори IMU може революціонізувати дизайн та враження від захоплюючих віртуальних світів. Крім того, ImageBind пропонує багатий шлях для дослідження спогадів, уможливлюючи пошук у різних модальностях, таких як текст, аудіо, зображення та відео.

Створення спільного простору для вбудовування багатьох модальностей давно є проблемою в дослідженнях ШІ. ImageBind обходить цю проблему, використовуючи широкомасштабні моделі візуальної мови та використовуючи природні пари з зображеннями. Вирівнюючи модальності, які виникають разом із зображеннями, ImageBind плавно поєднує різноманітні форми даних. Модель демонструє потенціал цілісної інтерпретації вмісту, дозволяючи різним модальностям взаємодіяти та встановлювати значущі зв’язки без попереднього спільного навчання.

Унікальна поведінка масштабування ImageBind показує, що його продуктивність покращується з більшими моделями зору. Завдяки самостійному навчанню та використанню мінімальних навчальних прикладів модель демонструє нові можливості, такі як зв’язування аудіо та тексту або прогнозування глибини за зображеннями. Крім того, ImageBind перевершує попередні методи в задачах класифікації аудіо та глибини, досягаючи значного підвищення точності та навіть перевершуючи спеціалізовані моделі, навчені виключно цим модальностям.

Ольга Степанова

Recent Posts

У Росії багатодітна родина планує назвати дитину на честь ракети «Орєшнік»

Багатодітна родина із Набережних Челнів готова назвати свого п’ятнадцятого спадкоємця Орєшнік або Орєшніца – на…

8 хв. ago

Нардеп Гончаренко спростував здобутки Укрнафти, озвучені Президентом

Під виглядом "успіху" Укрнафти демонструються фактично результати роботи двох підприємств (Укрнафта і Укртатнафта) під управлінням…

17 хв. ago

Три роки до нового удару Росії: попередження Залужного

Україна має щонайменше три роки, перш ніж Росія накопичить необхідні ресурси для масштабного наступу на…

25 хв. ago

Вже до кінця листопада: чоловіків молодших 25 років теж забиратимуть до ЗСУ

До кінця листопада 2024 року Генеральний штаб Збройних сил України представить оновлений план укладання контрактів…

32 хв. ago

У порту Гамбурга дрон стежив за британським авіаносцем, – BILD

Цього тижня в Німеччині до гамбурзького порту зайшов британський авіаносець HMS Queen Elizabeth. У ніч…

41 хв. ago

Як буде проходити оцінка інвалідності за новими правилами: всі деталі

Якщо ви не встигли пройти повторний огляд, є важливі терміни, які не можна пропустити. Зокрема,…

50 хв. ago