Компанія ByteDance, власник TikTok, випустила проєкт під назвою OmniHuman-1. Це генератор deepfake-відео, який вміє “оживляти” зображення і синхронізувати відео з завантаженим аудіо.
У TechCrunch підкреслюють, що діпфейки, які генерує OmniHuman-1, виходять “можливо, найреалістичнішими” серед конкурентів. Вони не обмежені за тривалістю, а як основу можна використовувати будь-який знімок, навіть чорно-білий.
Для створення діпфейка нейромережі достатньо однієї фотографії та запису голосу. У користувачів є доступ до декількох налаштувань, включно зі співвідношенням сторін і “пропорціями тіла” суб’єкта. А ще можна додати взаємодію сторонніми предметами на фото, якщо вони є.
Дослідники Bytedance кажуть, що вони навчили OmniHuman-1 приблизно на 18 700 годинах відеоданих із використанням нового підходу “omni-conditions”, який дає змогу цій ШІ-моделі навчатися на набагато більших і різноманітніших наборах даних, ніж попередні методи.
Як приклад розробники продемонстрували згенеровану лекцію Альберта Ейнштейна. У OmniHuman-1 є безкоштовна демоверсія. Щоправда, просто зараз вона не працює.