Американські дослідники разом з інженерами Meta створили алгоритм, який прогнозує напрямок людського погляду ще до того, як людина переведе очі. Технологію розробляють насамперед для смартокулярів та систем доповненої реальності.
Про це повідомляє TechXplore із посиланням на дослідження команди Фіона Райан.
Новий підхід відрізняється від традиційних систем тим, що аналізує не плоскі зображення, а поведінку людини в повноцінному тривимірному просторі.
Авторкою розробки стала аспірантка Georgia Institute of Technology Фіона Райан. Вона створила першу 3D-платформу для прогнозування так званих сканпатів — траєкторій руху очей на основі відео від першої особи.
За словами дослідниці, звичайні двовимірні методи аналізу не підходять для переносних пристроїв на кшталт смартокулярів, оскільки людина постійно рухається та взаємодіє з навколишнім середовищем.
Алгоритм аналізує послідовність рухів погляду та враховує поточну мету користувача. Наприклад, якщо система бачить, що людина тягнеться до чашки кави, вона може передбачити, що наступним кроком стане пошук місця, куди цю чашку поставлять.
Значна частина роботи над проєктом виконувалася під час стажування Райан у Meta.
Для навчання штучного інтелекту використовували набір даних Aria Digital Twin. Він містить тисячі годин відеозаписів від першої особи разом із детальною тривимірною реконструкцією приміщень та точними координатами напрямку погляду.
Завдяки цьому система навчилася зіставляти рух очей із геометрією навколишнього простору та поведінкою людини.
Наразі алгоритм здатний прогнозувати напрямок погляду приблизно на три секунди вперед. У деяких простіших сценаріях цей показник досягає десяти секунд.
Такого запасу часу достатньо, щоб AR-окуляри заздалегідь підготували потрібні підказки, елементи інтерфейсу або віртуальні об’єкти саме в тому місці, куди користувач лише збирається подивитися.
Розробники стверджують, що це дозволяє практично усунути затримки під час відображення інформації.
У майбутньому команда планує додати до моделі аналіз контексту. Система зможе враховувати не лише рухи людини, а й розуміти, чим саме вона займається в конкретний момент.
Окрім смартокулярів і споживчої електроніки, технологію розглядають як перспективний інструмент для робототехніки. Вона може допомогти роботам краще відтворювати природне людське сприйняття під час виконання побутових або виробничих завдань.