Новые LLM от Google в 2025 году: генерация идей, голосов, картинок… и песни дельфинов

Меня зовут Саша Пиманов, в МТС я занимаюсь разработкой. Мне нравится следить за глобальными трендами в области, и сегодня хочу обсудить новые LLM от Google. На конференции Google Cloud Next 2025 в Лас-Вегасе компания показала ^[1], как усовершенствовала модели Gemini, и представила новые инструменты для создания музыки, видео и изображений. Было много идей для бизнеса, творческого комьюнити и защиты окружающей среды. А еще — необычные проекты вроде анализа вокализаций дельфинов.

Gemini: умнее, быстрее, ближе к людям

Семейство моделей Gemini — сердце ИИ от Google, и в этом году оно получило мощный апгрейд. Начнем с Gemini 2.5 Flash ^[2]. Модель создана для скорости: она моментально отвечает на простые вопросы и экономит ресурсы. Хотите чат-бота, который не тормозит, или супербыструю поддержку клиентов? Все это может сделать Flash. Модель уже доступна на платформе Vertex AI ^[3]. Скоро ее можно будет запускать локально через Google Distributed Cloud.

Результаты тестов Gemini 2.5 Pro (источник) — *Результаты тестов Gemini 2.5 Pro (источник* ^[4])

Еще есть Gemini 2.5 Pro ^[5], заточенная под более комплексные и сложные задачи. Она уверенно справляется с анализом больших данных, созданием веб-приложений и даже научными вопросами. В тестах по математике ^[6] (AIME 2025) и науке ^[7] (GPQA) показывает ^[4] отличные результаты, а в написании кода выдает 63,8% на бенчмарке SWE-Bench Verified.

Отдельно стоит упомянуть ^[8] Gemini Robotics Models и Gemini Robotics-ER (расширенная версия) от Google DeepMind, представленные в марте 2025 года. Они созданы для роботов: помогают машинам двигаться, взаимодействовать с предметами и анализировать мир через камеры и сенсоры. Пока доступ к этим ИИ-моделям ограничен, но первые результаты уже впечатляют. С Gemini Robotics роботы могут выполнять специфические задачи без предварительного обучения ^[9]: упаковывать ланч-боксы, готовить салаты, складывать оригами и так далее. Gemini Robotics-ER помогает роботам определять, за какую часть предмета удобнее и безопаснее схватиться (например, за ручку кружки, а не за край). А еще — как именно двигаться, чтобы не задеть другие объекты поблизости и без проблем донести предмет до нужного места.

Еще разработчики Google хотят объединить ^[10] Gemini с видеомоделью Veo. Гибридный продукт может стать основой для умного помощника. Ожидается, что он будет понимать нас, видеть и слышать окружающий мир, помогать во множестве задач. Например, давать советы по ремонту, «посмотрев» на то, что нужно сделать.

Новые инструменты: от музыки до видео

Google не остановился на Gemini и показал новые LLM для создания контента. Начнем с Lyria — модели генерации музыки, которая преобразует ^[1] текстовые описания в музыкальные композиции. Хотите саундтрек для видео, рингтон или мелодию для уютного вечера? Опишите, что нужно, например «спокойный джаз», и Lyria создаст трек. Модель доступна в режиме предварительного просмотра на платформе Vertex AI для ограниченного круга пользователей.

Veo 2 — новая LLM генерации видео от Google. Она умеет создавать восьмисекундные клипы в разрешении 720p по текстовым описаниям — например, «закат над горами с летящими птицами». Модель хорошо понимает физику реального мира и движения человека, так что ей по силам реалистичные и плавные видеосцены. Функции редактирования, такие как удаление объектов и улучшение качества, пока ограничены, но Google работает над их расширением.

Imagen 3 отвечает ^[11] за генерацию изображений. Она создает картинки по текстовым описаниям с высокой точностью — от фотореалистичных портретов до фантастических миров. Может выдавать и шедевры в стиле аниме или импрессионизма. В 2025 году Google улучшил модель: теперь она еще точнее передает свет, тени и детали, умеет восстанавливать недостающие участки изображений и удалять лишние объекты. Imagen 3 доступна через Vertex AI и сервис ImageFX.

Chirp 3 — модель генерации и понимания речи от Google, встроенная в платформу Vertex AI. В 2025 году она получила крупное обновление: функция Instant Custom Voice ^[12] позволяет создавать персонализированные голосовые модели всего по 10-секундному аудиофрагменту. Хотите озвучить аудиокнигу своим голосом или создать уникального ассистента? Chirp 3 поможет. Правда, доступ к возможности пока ограничен. Модель поддерживает более 30 языков, включая русский. Она стала звучать еще реалистичнее — с улучшенной интонацией и эмоциональной окраской. Потенциал серьезный — от кастомизации приложений до озвучки видео и игр.

Дельфины и природа: ИИ для планеты

Google решил, что ИИ — это не только про бизнес и творчество ^[13], но и про заботу о мире. Один из самых впечатляющих проектов — Dolphin Gemma ^[14]. Он разработан вместе с командой проекта Wild Dolphin Project. Эта LLM анализирует вокализации атлантических пятнистых дельфинов. Представьте: ИИ «слушает» подводные сигналы, расшифровывает их структуру и помогает ученым глубже понять поведение ^[15] морских млекопитающих, как они общаются между собой. Модель пока доступна только научным партнерам.

Нейросеть анализирует свист дельфина (источник) — *Нейросеть анализирует свист дельфина (источник* ^[16])

Фотографии проектов, в которых применялась SpeciesNet (источник) — *Фотографии проектов, в которых применялась SpeciesNet (источник* ^[17])

Еще один экологический проект — SpeciesNet. Раньше модель использовалась в рамках платформы Wildlife Insights, с 2019 года. В марте 2025 года ее открыли ^[17] для широкой публики. Она распознает ^[18] животных на снимках с камер-ловушек, помогая ученым изучать биоразнообразие, следить за редкими видами и понимать, как меняются экосистемы. SpeciesNet обучена на более чем 65 миллионах изображений и способна распознавать свыше 2 000 меток — от видов и таксонов до небиологических объектов. Код модели открыт и доступен на GitHub, так что любой может использовать ее через Google Cloud или локально.

Машины, офисы и роботы

Разработчики Google рассказали о новых веяниях в своей работе. В январе 2025 года компания анонсировала ^[19] интеграцию ИИ-помощника в систему MBUX от Mercedes-Benz. Новый Automotive AI Agent понимает голосовые команды, умеет искать нужные места поблизости, учитывать особенности поездки: текущий маршрут, состояние автомобиля, предпочтения водителя и так далее.

Представьте: вы за рулем, говорите «найди уютное место для ужина», и система предлагает подходящие варианты. При этом она знает, какие блюда вам нравится, поэтому ищет заведение со средиземноморской кухней. А еще — старается сэкономить бензин, прокладывая маршрут к найденному ресторану. Такие ассистенты появятся в будущих моделях Mercedes. Точных сроков внедрения пока нет, но направление уже задано.

В Google Workspace появились ^[20] умные функции. В Google Docs теперь можно не только редактировать тексты одним кликом, но и использовать команду Audio Overviews — документ зачитывается как подкаст. А Help me refine предлагает улучшения текста через комментарии, это особенно удобно при совместной работе. Еще в Google Sheets появилась опция Help me analyze, которая помогает интерпретировать данные и находит ключевые инсайты, словно личный аналитик.

A photo of Samsung’s Ballie robot at CES 2025. — *Помощник оценивает вино, показанное человеком. Полезная функция!* *Источник* ^[21]

И конечно, роботы. Модель Gemini интегрирована в нового домашнего помощника от Samsung — робота Ballie ^[21], релиз которого намечен на лето 2025 года в США и Южной Корее. Он умеет управлять умным домом, сопровождать человека, проецировать фильмы и напоминания, адаптироваться к вашему расписанию. Это полноценный ИИ-компаньон, готовый стать частью повседневной жизни. Первые демо вызвали большой интерес ^[22]: Ballie — маленький роботизированный колобок, он перемещается, разговаривает и реагирует на обстановку.

Google поддержал новый открытый стандарт — Model Context Protocol от Anthropic. Он позволяет ИИ-моделям, включая Gemini, безопасно и гибко подключаться к внешним источникам данных и инструментам. Это упрощает внедрение ИИ в экосистему компании — от стартапов до крупных организаций.

Итак, краткие итоги. Google в 2025 году продемонстрировали, что ИИ — это еще и про творчество, природу и автомобили. Обновленные Gemini 2.5 Flash, 2.5 Pro, 2.0 Pro Experimental и Robotics Models делают ИИ быстрее, умнее и универсальнее. Lyria, Veo 2, Imagen 3 и Chirp 3 открывают двери для создания музыки, видео и картинок, которые раньше требовали целых студий. А проекты вроде DolphinGemma и SpeciesNet напоминают, что технологии могут служить не только людям, но и планете.

Пишите все, что вы думаете об этих новинках, в комментариях — обсудим вместе.

Автор: AleksandrPimanov

Источник ^[23]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/14458

URLs in this post:

[1] показала: https://cloud.google.com/blog/topics/google-cloud-next/google-cloud-next-2025-wrap-up

[2] Gemini 2.5 Flash: https://deepmind.google/technologies/gemini/flash/

[3] Vertex AI: https://cloud.google.com/vertex-ai?gad_source=1

[4] источник: https://www.contentgrip.com/google-releases-gemini-2-5/

[5] Gemini 2.5 Pro: https://deepmind.google/technologies/gemini/pro/

[6] математике: http://www.braintools.ru/article/7620

[7] науке: http://www.braintools.ru/article/7634

[8] упомянуть: https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/

[9] обучения: http://www.braintools.ru/article/5125

[10] объединить: https://techcrunch.com/2025/04/10/deepmind-ceo-demis-hassabis-says-google-will-eventually-combine-its-gemini-and-veo-ai-models/

[11] отвечает: https://ai.google.dev/gemini-api/docs/image-generation?hl=ru#imagen

[12] Instant Custom Voice: https://cloud.google.com/text-to-speech/docs/chirp3-instant-custom-voice

[13] творчество: http://www.braintools.ru/creation

[14] Dolphin Gemma: https://arstechnica.com/science/2025/04/google-created-a-new-ai-model-for-talking-to-dolphins/

[15] поведение: http://www.braintools.ru/article/9372

[16] источник: https://blog.google/technology/ai/dolphingemma/

[17] источник: https://petapixel.com/2025/03/14/google-release-ai-model-speciesnet-to-identify-wildlife-species-in-trail-camera-images/

[18] распознает: https://techcrunch.com/2025/03/03/google-releases-speciesnet-an-ai-model-designed-to-identify-wildlife/

[19] анонсировала: https://blog.google/feed/mercedes-google-cloud-automotive-ai-agent/

[20] появились: https://workspace.google.com/blog/product-announcements/new-AI-drives-business-results

[21] Источник: https://www.theverge.com/news/645853/samsung-is-finally-releasing-ballie

[22] интерес: http://www.braintools.ru/article/4220

[23] Источник: https://habr.com/ru/companies/ru_mts/articles/902806/?utm_source=habrahabr&utm_medium=rss&utm_campaign=902806

Нажмите здесь для печати.