- BrainTools - https://www.braintools.ru -
В недавнем выпуске подкаста Possible [1], который ведёт соучредитель LinkedIn Рид Хоффман, генеральный директор Google DeepMind Демис Хассабис заявил, что Google планирует в конечном итоге объединить свои модели ИИ Gemini [2] с моделями Veo [3], генерирующими видео, чтобы улучшить понимание физического мира.
«Мы с самого начала создавали Gemini, нашу базовую модель, как мультимодальную, — сказал Хассабис, — и причина, по которой мы это сделали, заключается в том, что у нас есть представление об универсальном цифровом помощнике, помощнике, который… действительно помогает вам в реальном мире».
Индустрия искусственного интеллекта [4] постепенно переходит к «универсальным» моделям, если можно так выразиться, моделям, которые могут понимать и синтезировать множество видов медиа. Новейшие модели Gemini от Google могут генерировать аудио [5], а также изображения и текст, в то время как модель OpenAI по умолчанию в ChatGPT может создавать изображения, в том числе, конечно, в стиле Studio Ghibli [6]. Amazon также объявила о планах [7] запустить модель «всё в одном» в конце этого года.
Эти универсальные модели требуют большого количества обучающих данных — изображений, видео, аудио, текста и так далее. Хассабис предположил, что видеоданные для Veo поступают в основном с YouTube, платформы, которой владеет Google.
«По сути, просматривая видео на YouTube — много видео на YouTube — Veo 2 может понять физический мир», — сказал Хассабис.
Ранее Google сообщил TechCrunch, что его модели «могут быть» обучены на «некоторых» материалах YouTube в соответствии с соглашением с создателями. Сообщается, что Google расширил условия предоставления услуг [8] в прошлом году, в том числе для того, чтобы компания могла использовать больше данных для обучения [9] своих моделей ИИ.
Источник [10]
Автор: mefdayy
Источник [11]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/14129
URLs in this post:
[1] Possible: https://podcasts.apple.com/us/podcast/demis-hassabis-on-ai-game-theory-multimodality-and/id1677184070?i=1000702834109
[2] Gemini: https://techcrunch.com/2025/02/26/what-is-google-gemini-ai/
[3] Veo: https://techcrunch.com/2025/02/23/googles-new-ai-video-model-veo-2-will-cost-50-cents-per-second/
[4] интеллекта: http://www.braintools.ru/article/7605
[5] генерировать аудио: https://techcrunch.com/2024/12/11/gemini-2-0-googles-newest-flagship-ai-can-generate-text-images-and-speech/
[6] в стиле Studio Ghibli: https://techcrunch.com/2025/03/26/openais-viral-studio-ghibli-moment-highlights-ai-copyright-concerns/
[7] также объявила о планах: https://techcrunch.com/2024/12/03/amazon-announces-nova-a-new-family-of-multimodal-ai-models/
[8] Google расширил условия предоставления услуг: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
[9] обучения: http://www.braintools.ru/article/5125
[10] Источник: https://techcrunch.com/2025/04/10/deepmind-ceo-demis-hassabis-says-google-will-eventually-combine-its-gemini-and-veo-ai-models/
[11] Источник: https://habr.com/ru/companies/bothub/news/899836/?utm_source=habrahabr&utm_medium=rss&utm_campaign=899836
Нажмите здесь для печати.