Gemini 2.5 Pro. Большой контекст зарелизился

Никогда такого не было, и вот опять. Новый прорыв – Gemini 2.5 Pro ^[1].

Это та самая сетка, которая недавно висела в топе LMArena под названием Nebula с разницей в скоре +40.

Я уже довольно долго использую экспериментальные модельки, которые выкладывает Google в AI Studio. Исходя из моей нищебродской логики человека, лишенного свободного доступа к американской карте Visa, американского юрлица и американской зарплаты в 500 килобаксов/месяц, это самая экономная, и даже сказать – единственно возможная сетка. За исключением парсинга чата Deepseek R1/V3, конечно.

Поэтому, эта новость от всей души. В отличие от всяких навороченных RAG-ов в Claude за много денег, этой Gemini я действительно буду пользоваться сам.

Большинство моделей похожи на умных попугаев – они повторяют ^[2] и предсказывают, но ничего не понимают. У тех, кто пытается рассуждать, есть проблема с объемом этих рассуждений. Окно в 32 тысячи токенов сравнимо с сознанием студента, который не спал неделю до экзамена. Под конец он выучил один билет – про блох, и теперь рассказывает всё в терминах блох.

Что делает Gemini 2.5 Pro революционным?

1. Размер контекста в один миллион токенов – сейчас, и до двух миллионов – coming soon. Это больше не заспанный студент. Вам наверное, уже надоело, но еще раз приведу пример нашего телеграм-чата: один-два дня переписки – это около 200 тысяч токенов. В обычную сетку это просто не влезет.

2. Отличная рассуждалка. Gemini выдает рекордные 18,8% на экзамене “Последний рубеж человечества” (Humanity`s Last Exam) – крайне сложном эталоне для проверки границ возможностей ризонинга, который создавали сотни экспертов. В этом тесте нет tool calling-а, никаких читов не предусмотрено. То есть, это не гонка за повышением размера контекста только и исключительно ради размера контекста.

3. Отличная мультимодалка.

Gemini не ограничена только текстом. Мы говорим о системе, которая одинаково хорошо понимает:

– Текст
– Аудио
– Изображения
– Видео
– Целые репозитории кода

Осознайте масштаб проблемы: на любом более-менее осмысленном количестве визуального контента, все остальные сети потребуют разорвать контекст. Вы точно хотите писать RAG с семантическим анализом картинок?

4. Отличный кодинг. Скор 63,8% на SWE-Bench Verified – новая планка для агентного кода. Может генерить осмысленные приложения целиком по одному-единственному промту.

Последнее утверждение про “один промт” я хз как проверить. Способ, которым я пишу код, сильно отличается от “обычного” отсутствием иллюзий. У меня промт – это несколько страниц текста на английском языке, и он всегда выдает работающие приложения. Но обычным людям, которые хотят написать одно предложение и сразу получить результат – наверное, это как-то может помочь.

Недавно Tencent и DeepSeek выпустили свежие модельки, и какое-то время казалось, что вот он “прорыв”. У Tencent в два раза быстрее генерятся токены (зато куча китайского языка в выхлопе и cutoff за 23-й год – говно мамонта). DeepSeek опять продвинул вперед навыки кодинга, и наверняка его дистилляция станет следующей “народной” моделью для запуска на своем компьютере, после их же deepseek-coder-v2:16b.

И тут на эту счастливую парочку, GOOGLE СБРАСЫВАЕТ БОМБУ, размером с Хиросиму. Да, DeepSeek силен в кодинге. Но как он собирается конкурировать со способностью Gemini загрузить целиком весь репозиторий кода без всякого RAG?

В удивительное время живем, товарищи. Ждем ответки от OpenAI, Anthropic, DeepSeek и Tencent

И самое главное – как на этом собирается хайповать Nvidia? Они должны, обязаны просто.

Telegram: @1red2black ^[3]

Автор: olegchir

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/13547

URLs in this post:

[1] Gemini 2.5 Pro: https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/

[2] повторяют: http://www.braintools.ru/article/4012

[3] @1red2black: https://t.me/tg_1red2black

[4] Источник: https://habr.com/ru/companies/bar/articles/894350/?utm_source=habrahabr&utm_medium=rss&utm_campaign=894350

Нажмите здесь для печати.