OpenAI (розробники ChatGPT) презентували Sora – тепер відео тривалістю до 60 секунд можна отримати, просто написавши текст.
Розробники навчили свою нову модель перетворювати текстові інструкції на відео – реалістичні та деталізовані сцени, виконані точно у відповідності із запитом. Sora здатна створювати складні сцени з кількома персонажами, певними типами руху та точними деталями об’єкта та фону.
ШІ застосовує архітектуру, засновану на трансформерах, адаптовану для задач відеогенерації, та використовує механізми, аналогічні тим, що зустрічаються у моделях типу GPT та системах стабільної дифузії. Цей підхід дозволяє моделі обробляти текстові описи і на їх основі генерувати візуальні уявлення, переходячи від початкового шумового сигналу до послідовності кадрів, відповідних заданому сценарію. Такий процес включає ітеративне поліпшення якості зображення через поступове зменшення шуму, спираючись на великий корпус навчальних даних для вивчення та відтворення складних візуальних і динамічних патернів, властивих реальному світу.
Розробники надали доступ до ШІ ряду художників, дизайнерів та режисерів, щоб отримати відгуки про те, як удосконалити модель, щоб вона була найбільш корисною для творчих професіоналів. Зазначається, що модель розуміє не тільки те, що користувач запросив у командному рядку, а й те, як ці речі існують у фізичному світі.
OpenAI серйозно підходять до питання безпеки – перш ніж Sora стане доступною широкому загалу, її тестують на предмет різних ризиків: від дезінформації до упередженості. Команда розробників працює над створенням інструментів, які допоможуть виявляти і фільтрувати потенційно шкідливий або контент, що вводить в оману.