
Никогда такого не было, и вот опять. Новый прорыв – Gemini 2.5 Pro.
Это та самая сетка, которая недавно висела в топе LMArena под названием Nebula с разницей в скоре +40.
Я уже довольно долго использую экспериментальные модельки, которые выкладывает Google в AI Studio. Исходя из моей нищебродской логики человека, лишенного свободного доступа к американской карте Visa, американского юрлица и американской зарплаты в 500 килобаксов/месяц, это самая экономная, и даже сказать – единственно возможная сетка. За исключением парсинга чата Deepseek R1/V3, конечно.
Поэтому, эта новость от всей души. В отличие от всяких навороченных RAG-ов в Claude за много денег, этой Gemini я действительно буду пользоваться сам.
Большинство моделей похожи на умных попугаев – они повторяют и предсказывают, но ничего не понимают. У тех, кто пытается рассуждать, есть проблема с объемом этих рассуждений. Окно в 32 тысячи токенов сравнимо с сознанием студента, который не спал неделю до экзамена. Под конец он выучил один билет – про блох, и теперь рассказывает всё в терминах блох.
Что делает Gemini 2.5 Pro революционным?
1. Размер контекста в один миллион токенов – сейчас, и до двух миллионов – coming soon. Это больше не заспанный студент. Вам наверное, уже надоело, но еще раз приведу пример нашего телеграм-чата: один-два дня переписки – это около 200 тысяч токенов. В обычную сетку это просто не влезет.
2. Отличная рассуждалка. Gemini выдает рекордные 18,8% на экзамене “Последний рубеж человечества” (Humanity`s Last Exam) – крайне сложном эталоне для проверки границ возможностей ризонинга, который создавали сотни экспертов. В этом тесте нет tool calling-а, никаких читов не предусмотрено. То есть, это не гонка за повышением размера контекста только и исключительно ради размера контекста.
3. Отличная мультимодалка.
Gemini не ограничена только текстом. Мы говорим о системе, которая одинаково хорошо понимает:
– Текст
– Аудио
– Изображения
– Видео
– Целые репозитории кода
Осознайте масштаб проблемы: на любом более-менее осмысленном количестве визуального контента, все остальные сети потребуют разорвать контекст. Вы точно хотите писать RAG с семантическим анализом картинок?
4. Отличный кодинг. Скор 63,8% на SWE-Bench Verified – новая планка для агентного кода. Может генерить осмысленные приложения целиком по одному-единственному промту.
Последнее утверждение про “один промт” я хз как проверить. Способ, которым я пишу код, сильно отличается от “обычного” отсутствием иллюзий. У меня промт – это несколько страниц текста на английском языке, и он всегда выдает работающие приложения. Но обычным людям, которые хотят написать одно предложение и сразу получить результат – наверное, это как-то может помочь.
Недавно Tencent и DeepSeek выпустили свежие модельки, и какое-то время казалось, что вот он “прорыв”. У Tencent в два раза быстрее генерятся токены (зато куча китайского языка в выхлопе и cutoff за 23-й год – говно мамонта). DeepSeek опять продвинул вперед навыки кодинга, и наверняка его дистилляция станет следующей “народной” моделью для запуска на своем компьютере, после их же deepseek-coder-v2:16b.
И тут на эту счастливую парочку, GOOGLE СБРАСЫВАЕТ БОМБУ, размером с Хиросиму. Да, DeepSeek силен в кодинге. Но как он собирается конкурировать со способностью Gemini загрузить целиком весь репозиторий кода без всякого RAG?
В удивительное время живем, товарищи. Ждем ответки от OpenAI, Anthropic, DeepSeek и Tencent
И самое главное – как на этом собирается хайповать Nvidia? Они должны, обязаны просто.
Telegram: @1red2black
Автор: olegchir