Генеральный директор DeepMind заявил, что Google объединит свои модели ИИ Gemini и Veo

В недавнем выпуске подкаста Possible ^[1], который ведёт соучредитель LinkedIn Рид Хоффман, генеральный директор Google DeepMind Демис Хассабис заявил, что Google планирует в конечном итоге объединить свои модели ИИ Gemini ^[2] с моделями Veo ^[3], генерирующими видео, чтобы улучшить понимание физического мира.

«Мы с самого начала создавали Gemini, нашу базовую модель, как мультимодальную, — сказал Хассабис, — и причина, по которой мы это сделали, заключается в том, что у нас есть представление об универсальном цифровом помощнике, помощнике, который… действительно помогает вам в реальном мире».

Индустрия искусственного интеллекта ^[4] постепенно переходит к «универсальным» моделям, если можно так выразиться, моделям, которые могут понимать и синтезировать множество видов медиа. Новейшие модели Gemini от Google могут генерировать аудио ^[5], а также изображения и текст, в то время как модель OpenAI по умолчанию в ChatGPT может создавать изображения, в том числе, конечно, в стиле Studio Ghibli ^[6]. Amazon также объявила о планах ^[7] запустить модель «всё в одном» в конце этого года.

Эти универсальные модели требуют большого количества обучающих данных — изображений, видео, аудио, текста и так далее. Хассабис предположил, что видеоданные для Veo поступают в основном с YouTube, платформы, которой владеет Google.

«По сути, просматривая видео на YouTube — много видео на YouTube — Veo 2 может понять физический мир», — сказал Хассабис.

Ранее Google сообщил TechCrunch, что его модели «могут быть» обучены на «некоторых» материалах YouTube в соответствии с соглашением с создателями. Сообщается, что Google расширил условия предоставления услуг ^[8] в прошлом году, в том числе для того, чтобы компания могла использовать больше данных для обучения ^[9] своих моделей ИИ.

Источник ^[10]

Автор: mefdayy

Источник ^[11]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/14129

URLs in this post:

[1] Possible: https://podcasts.apple.com/us/podcast/demis-hassabis-on-ai-game-theory-multimodality-and/id1677184070?i=1000702834109

[2] Gemini: https://techcrunch.com/2025/02/26/what-is-google-gemini-ai/

[3] Veo: https://techcrunch.com/2025/02/23/googles-new-ai-video-model-veo-2-will-cost-50-cents-per-second/

[4] интеллекта: http://www.braintools.ru/article/7605

[5] генерировать аудио: https://techcrunch.com/2024/12/11/gemini-2-0-googles-newest-flagship-ai-can-generate-text-images-and-speech/

[6] в стиле Studio Ghibli: https://techcrunch.com/2025/03/26/openais-viral-studio-ghibli-moment-highlights-ai-copyright-concerns/

[7] также объявила о планах: https://techcrunch.com/2024/12/03/amazon-announces-nova-a-new-family-of-multimodal-ai-models/

[8] Google расширил условия предоставления услуг: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

[9] обучения: http://www.braintools.ru/article/5125

[10] Источник: https://techcrunch.com/2025/04/10/deepmind-ceo-demis-hassabis-says-google-will-eventually-combine-its-gemini-and-veo-ai-models/

[11] Источник: https://habr.com/ru/companies/bothub/news/899836/?utm_source=habrahabr&utm_medium=rss&utm_campaign=899836

Нажмите здесь для печати.