- BrainTools - https://www.braintools.ru -
Ссылка на официальный анонс (англ): https://omnihuman-lab.github.io/ [1]
Примеры некоторых сгенерированных видосов под катом, но на Хабре не очень удобный плеер, поэтому остальные я выложил в телеге [2].
Анимация человека, а именно – генерация говорящего человека на основе аудиодорожки за последние годы сильно прокачалась в качестве. Но существующие подходы всё ещё испытывают трудности с масштабированием.
Сегодня ByteDance представили модель OmniHuman — фреймворк на основе Diffusion Transformer, который показывает сильный рост качества за счет, добавления информации о движениях на видео в процесс обучения [3].
OmniHuman поддерживает различные типы портретного видео (крупный план лица, портрет, по пояс, в полный рост). В качестве аудио подходит как разговорная речь, так и пение, взаимодействие человека с объектами и сложные позы тела, а также различные стили изображений.
В сравнении с существующими методами основанными на аудио, OmniHuman не только создаёт более реалистичные видео, но и обеспечивает большую гибкость во входных данных. Он также поддерживает несколько режимов управления (аудио, видео и комбинированные сигналы).
Вот они:
Мой личный фаворит:
Когда компании “воюют” технологиями, и гонка между ними – научная, это мне нравится гораздо больше, чем торговые воины прошлых лет между США и Китаем. Наблюдать за конкуренцией OpenAI + Anthropic с одной стороны и DeepSeek + ByteDance с другой с каждым днем все интереснее. На рынке появляется всё больше отличных моделей, и каждые полгода мы вырастаем в качестве почти на порядок. И это прекрасно.
—-
P.S. 2025 год на дворе, ну как я могу не бахнуть ссылку на свой Телеграм канал [4] в конце статьи? Я пишу там новости про ИИ раньше всех, регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных агентов и приложения с ИИ. Велком!
Автор: ElKornacio
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/11856
URLs in this post:
[1] https://omnihuman-lab.github.io/: https://omnihuman-lab.github.io/
[2] выложил в телеге: https://t.me/elkornacio
[3] обучения: http://www.braintools.ru/article/5125
[4] ссылку на свой Телеграм канал: https://t.me/+xbxfsgK66803YTY6
[5] Источник: https://habr.com/ru/news/879384/?utm_source=habrahabr&utm_medium=rss&utm_campaign=879384
Нажмите здесь для печати.