- BrainTools - https://www.braintools.ru -

ByteDance выпустили OmniHuman-1: генерация видео по одной картинке и аудиодорожке

Ссылка на официальный анонс (англ): https://omnihuman-lab.github.io/ [1]

Примеры некоторых сгенерированных видосов под катом, но на Хабре не очень удобный плеер, поэтому остальные я выложил в телеге [2].

Анимация человека, а именно – генерация говорящего человека на основе аудиодорожки за последние годы сильно прокачалась в качестве. Но существующие подходы всё ещё испытывают трудности с масштабированием.

Сегодня ByteDance представили модель OmniHuman — фреймворк на основе Diffusion Transformer, который показывает сильный рост качества за счет, добавления информации о движениях на видео в процесс обучения [3].

OmniHuman поддерживает различные типы портретного видео (крупный план лица, портрет, по пояс, в полный рост). В качестве аудио подходит как разговорная речь, так и пение, взаимодействие человека с объектами и сложные позы тела, а также различные стили изображений.

Архитектура модели и обучения

Архитектура модели и обучения

В сравнении с существующими методами основанными на аудио, OmniHuman не только создаёт более реалистичные видео, но и обеспечивает большую гибкость во входных данных. Он также поддерживает несколько режимов управления (аудио, видео и комбинированные сигналы).

Да покажи уже видосы

Вот они:

Мой личный фаворит:

Заключение

Когда компании “воюют” технологиями, и гонка между ними – научная, это мне нравится гораздо больше, чем торговые воины прошлых лет между США и Китаем. Наблюдать за конкуренцией OpenAI + Anthropic с одной стороны и DeepSeek + ByteDance с другой с каждым днем все интереснее. На рынке появляется всё больше отличных моделей, и каждые полгода мы вырастаем в качестве почти на порядок. И это прекрасно.

—-

P.S. 2025 год на дворе, ну как я могу не бахнуть ссылку на свой Телеграм канал [4] в конце статьи? Я пишу там новости про ИИ раньше всех, регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных агентов и приложения с ИИ. Велком!

Автор: ElKornacio

Источник [5]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/11856

URLs in this post:

[1] https://omnihuman-lab.github.io/: https://omnihuman-lab.github.io/

[2] выложил в телеге: https://t.me/elkornacio

[3] обучения: http://www.braintools.ru/article/5125

[4] ссылку на свой Телеграм канал: https://t.me/+xbxfsgK66803YTY6

[5] Источник: https://habr.com/ru/news/879384/?utm_source=habrahabr&utm_medium=rss&utm_campaign=879384

www.BrainTools.ru

Рейтинг@Mail.ru
Rambler's Top100