- BrainTools - https://www.braintools.ru -
Никогда такого не было, и вот опять. Новый прорыв – Gemini 2.5 Pro [1].
Это та самая сетка, которая недавно висела в топе LMArena под названием Nebula с разницей в скоре +40.
Я уже довольно долго использую экспериментальные модельки, которые выкладывает Google в AI Studio. Исходя из моей нищебродской логики человека, лишенного свободного доступа к американской карте Visa, американского юрлица и американской зарплаты в 500 килобаксов/месяц, это самая экономная, и даже сказать – единственно возможная сетка. За исключением парсинга чата Deepseek R1/V3, конечно.
Поэтому, эта новость от всей души. В отличие от всяких навороченных RAG-ов в Claude за много денег, этой Gemini я действительно буду пользоваться сам.
Большинство моделей похожи на умных попугаев – они повторяют [2] и предсказывают, но ничего не понимают. У тех, кто пытается рассуждать, есть проблема с объемом этих рассуждений. Окно в 32 тысячи токенов сравнимо с сознанием студента, который не спал неделю до экзамена. Под конец он выучил один билет – про блох, и теперь рассказывает всё в терминах блох.
Что делает Gemini 2.5 Pro революционным?
1. Размер контекста в один миллион токенов – сейчас, и до двух миллионов – coming soon. Это больше не заспанный студент. Вам наверное, уже надоело, но еще раз приведу пример нашего телеграм-чата: один-два дня переписки – это около 200 тысяч токенов. В обычную сетку это просто не влезет.
2. Отличная рассуждалка. Gemini выдает рекордные 18,8% на экзамене “Последний рубеж человечества” (Humanity`s Last Exam) – крайне сложном эталоне для проверки границ возможностей ризонинга, который создавали сотни экспертов. В этом тесте нет tool calling-а, никаких читов не предусмотрено. То есть, это не гонка за повышением размера контекста только и исключительно ради размера контекста.
3. Отличная мультимодалка.
Gemini не ограничена только текстом. Мы говорим о системе, которая одинаково хорошо понимает:
– Текст
– Аудио
– Изображения
– Видео
– Целые репозитории кода
Осознайте масштаб проблемы: на любом более-менее осмысленном количестве визуального контента, все остальные сети потребуют разорвать контекст. Вы точно хотите писать RAG с семантическим анализом картинок?
4. Отличный кодинг. Скор 63,8% на SWE-Bench Verified – новая планка для агентного кода. Может генерить осмысленные приложения целиком по одному-единственному промту.
Последнее утверждение про “один промт” я хз как проверить. Способ, которым я пишу код, сильно отличается от “обычного” отсутствием иллюзий. У меня промт – это несколько страниц текста на английском языке, и он всегда выдает работающие приложения. Но обычным людям, которые хотят написать одно предложение и сразу получить результат – наверное, это как-то может помочь.
Недавно Tencent и DeepSeek выпустили свежие модельки, и какое-то время казалось, что вот он “прорыв”. У Tencent в два раза быстрее генерятся токены (зато куча китайского языка в выхлопе и cutoff за 23-й год – говно мамонта). DeepSeek опять продвинул вперед навыки кодинга, и наверняка его дистилляция станет следующей “народной” моделью для запуска на своем компьютере, после их же deepseek-coder-v2:16b.
И тут на эту счастливую парочку, GOOGLE СБРАСЫВАЕТ БОМБУ, размером с Хиросиму. Да, DeepSeek силен в кодинге. Но как он собирается конкурировать со способностью Gemini загрузить целиком весь репозиторий кода без всякого RAG?
В удивительное время живем, товарищи. Ждем ответки от OpenAI, Anthropic, DeepSeek и Tencent
И самое главное – как на этом собирается хайповать Nvidia? Они должны, обязаны просто.
Telegram: @1red2black [3]
Автор: olegchir
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/13547
URLs in this post:
[1] Gemini 2.5 Pro: https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
[2] повторяют: http://www.braintools.ru/article/4012
[3] @1red2black: https://t.me/tg_1red2black
[4] Источник: https://habr.com/ru/companies/bar/articles/894350/?utm_source=habrahabr&utm_medium=rss&utm_campaign=894350
Нажмите здесь для печати.