Gemini 2.5 Pro. Большой контекст зарелизился. ai.. ai. big context.. ai. big context. gemini.. ai. big context. gemini. google.. ai. big context. gemini. google. llm.. ai. big context. gemini. google. llm. ml.. ai. big context. gemini. google. llm. ml. Блог компании Anarchic.. ai. big context. gemini. google. llm. ml. Блог компании Anarchic. Машинное обучение.. ai. big context. gemini. google. llm. ml. Блог компании Anarchic. Машинное обучение. Программирование.
Gemini 2.5 Pro. Большой контекст зарелизился - 1

Никогда такого не было, и вот опять. Новый прорыв – Gemini 2.5 Pro.

Это та самая сетка, которая недавно висела в топе LMArena под названием Nebula с разницей в скоре +40.

Я уже довольно долго использую экспериментальные модельки, которые выкладывает Google в AI Studio. Исходя из моей нищебродской логики человека, лишенного свободного доступа к американской карте Visa, американского юрлица и американской зарплаты в 500 килобаксов/месяц, это самая экономная, и даже сказать – единственно возможная сетка. За исключением парсинга чата Deepseek R1/V3, конечно.

Поэтому, эта новость от всей души. В отличие от всяких навороченных RAG-ов в Claude за много денег, этой Gemini я действительно буду пользоваться сам.

Большинство моделей похожи на умных попугаев – они повторяют и предсказывают, но ничего не понимают. У тех, кто пытается рассуждать, есть проблема с объемом этих рассуждений. Окно в 32 тысячи токенов сравнимо с сознанием студента, который не спал неделю до экзамена. Под конец он выучил один билет – про блох, и теперь рассказывает всё в терминах блох.

Что делает Gemini 2.5 Pro революционным?

1. Размер контекста в один миллион токенов – сейчас, и до двух миллионов – coming soon. Это больше не заспанный студент. Вам наверное, уже надоело, но еще раз приведу пример нашего телеграм-чата: один-два дня переписки – это около 200 тысяч токенов. В обычную сетку это просто не влезет.

2. Отличная рассуждалка. Gemini выдает рекордные 18,8% на экзамене “Последний рубеж человечества” (Humanity`s Last Exam) – крайне сложном эталоне для проверки границ возможностей ризонинга, который создавали сотни экспертов. В этом тесте нет tool calling-а, никаких читов не предусмотрено. То есть, это не гонка за повышением размера контекста только и исключительно ради размера контекста.

3. Отличная мультимодалка.

Gemini не ограничена только текстом. Мы говорим о системе, которая одинаково хорошо понимает:

– Текст
– Аудио
– Изображения
– Видео
– Целые репозитории кода

Осознайте масштаб проблемы: на любом более-менее осмысленном количестве визуального контента, все остальные сети потребуют разорвать контекст. Вы точно хотите писать RAG с семантическим анализом картинок?

4. Отличный кодинг. Скор 63,8% на SWE-Bench Verified – новая планка для агентного кода. Может генерить осмысленные приложения целиком по одному-единственному промту.

Последнее утверждение про “один промт” я хз как проверить. Способ, которым я пишу код, сильно отличается от “обычного” отсутствием иллюзий. У меня промт – это несколько страниц текста на английском языке, и он всегда выдает работающие приложения. Но обычным людям, которые хотят написать одно предложение и сразу получить результат – наверное, это как-то может помочь.

Недавно Tencent и DeepSeek выпустили свежие модельки, и какое-то время казалось, что вот он “прорыв”. У Tencent в два раза быстрее генерятся токены (зато куча китайского языка в выхлопе и cutoff за 23-й год – говно мамонта). DeepSeek опять продвинул вперед навыки кодинга, и наверняка его дистилляция станет следующей “народной” моделью для запуска на своем компьютере, после их же deepseek-coder-v2:16b.

И тут на эту счастливую парочку, GOOGLE СБРАСЫВАЕТ БОМБУ, размером с Хиросиму. Да, DeepSeek силен в кодинге. Но как он собирается конкурировать со способностью Gemini загрузить целиком весь репозиторий кода без всякого RAG?

В удивительное время живем, товарищи. Ждем ответки от OpenAI, Anthropic, DeepSeek и Tencent

И самое главное – как на этом собирается хайповать Nvidia? Они должны, обязаны просто.

Telegram: @1red2black

Автор: olegchir

Источник

Рейтинг@Mail.ru
Rambler's Top100