Google пополнилась улучшенными моделями генерации медиаконтента: Lyria, Veo 2 и Chirp 3 доступны избранным клиентам

В среду Google выпустила обновления для нескольких своих собственных моделей искусственного интеллекта ^[1] для генерации медиаконтента, доступных через облачную платформу Vertex AI. Lyria ^[2], модель Google text-to-music, теперь доступна в предварительном просмотре для избранных клиентов, а модель создания видео Veo 2 ^[3] компании была улучшена новыми возможностями редактирования и настройки визуальных эффектов.

Компания также запустила функцию клонирования голоса на базе Chirp 3 ^[4], модели понимания аудио Google, для «разрешенных» пользователей. А генератор изображений Imagen 3 ^[5] теперь обеспечивает то, что компания описывает как значительно лучшую производительность.

Обновления, приуроченные к Cloud Next, являются последним рывком Google к монополизации корпоративного рынка генеративного AI. Компания, возможно, наиболее напрямую конкурирует с Amazon, которая предлагает сопоставимую облачную платформу AI под названием Bedrock с собственным набором фирменных моделей генеративного AI.

Google позиционирует Lyria как альтернативу бесплатным музыкальным библиотекам. Используя эту модель, клиенты могут создавать песни в различных стилях и жанрах, от джазовых фортепианных соло до лоу-фай треков, заявила компания.

Chirp 3, тем временем, может синтезировать речь примерно на 35 языках. Впервые представленный ранее в этом году, Chirp 3 управляет Instant Custom Voice, который, как предполагается, может клонировать голос с 10 секундами аудио. Теперь он доступен всем. Эта модель также лежит в основе нового инструмента, запущенного в предварительной версии, называемого Transcription with Diarization, который разделяет и идентифицирует говорящих в записях с несколькими участниками.

По словам Google, для предотвращения злоупотреблений Instant Custom Voice проходит процедуру «проверки» с целью подтверждения «надлежащих разрешений на использование голоса».

Что касается Veo 2, модель теперь может удалять фоновые изображения, логотипы и объекты из существующих видео, а также расширять кадр видеоматериала (например, для преобразования ландшафтного видео в портретное). Теперь она также может настраивать углы камеры и темп в сценах, сгенерированных AI, для создания покадровых съемок, клипов в стиле дрона и многого другого, а также может выполнять интерполяцию между указанными начальными и конечными кадрами.

На данный момент эти функции Veo доступны в предварительной версии. Что касается вышеупомянутых обновлений Imagen 3, Google заявила, что они улучшают способность модели удалять объекты и восстанавливать отсутствующие или поврежденные части изображений.

Все медиа, созданные Imagen, Veo и Lyria (но не Chirp), помечены водяными знаками с использованием технологии SynthID ^[6] от Google. Компания заявила, что все ее генеративные модели AI имеют «встроенные защитные механизмы» для защиты от создания вредоносного контента.

Google исторически не указывал, какие именно данные он использует для обучения ^[7] своих моделей, и технологический гигант придерживается этого прецедента и сегодня. Обучающие данные, как правило, являются спорным предметом по причинам, связанным с интеллектуальной собственностью. Некоторые фирмы обучают свои модели на защищенных авторским правом работах без предварительного получения разрешения от правообладателей. Хотя эти компании утверждают, что доктрина добросовестного использования США ^[8] защищает эту практику, некоторые создатели, по понятным причинам, не согласны. Многие сражаются с поставщиками в суде ^[9].

Ранее Google сообщила TechCrunch, что предлагает механизмы отказа от обучения моделей, а также политику возмещения ущерба для защиты клиентов Google Cloud и Vertex AI от споров об авторских правах, связанных с AI.

Источник ^[10]

Автор: dilnaz_04

Источник ^[11]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/14063

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] Lyria: https://techcrunch.com/2023/11/16/deepmind-and-youtube-release-lyria-a-gen-ai-model-for-music-and-dream-track-to-build-ai-tunes/

[3] Veo 2: https://techcrunch.com/2025/02/23/googles-new-ai-video-model-veo-2-will-cost-50-cents-per-second/

[4] Chirp 3: https://techcrunch.com/2025/03/17/google-adds-its-hd-voice-model-chirp-3-to-its-vertex-ai-platform/

[5] Imagen 3: https://techcrunch.com/2024/11/27/google-geminis-imagen-3-lets-players-design-their-own-chess-pieces/

[6] SynthID: https://techcrunch.com/2024/10/23/google-releases-tech-to-watermark-ai-generated-text/

[7] обучения: http://www.braintools.ru/article/5125

[8] доктрина добросовестного использования США: https://techcrunch.com/2025/03/13/openai-calls-for-u-s-government-to-codify-fair-use-for-ai-training/

[9] Многие сражаются с поставщиками в суде: https://chatgptiseatingtheworld.com/2025/04/05/updated-map-of-40-us-copyright-suits-v-ai-companies-with-transfer-of-all-suits-v-openai-to-judge-stein/

[10] Источник: https://techcrunch.com/2025/04/09/google-brings-a-music-generating-ai-model-to-its-enterprise-cloud/

[11] Источник: https://habr.com/ru/companies/bothub/news/899222/?utm_source=habrahabr&utm_medium=rss&utm_campaign=899222

Нажмите здесь для печати.