Gemini 2.5 Pro еще ближе к человеку, но реально рассуждать умеют только модели OpenAI. 2.5.. 2.5. Claude.. 2.5. Claude. deepseek.. 2.5. Claude. deepseek. gemini.. 2.5. Claude. deepseek. gemini. google.. 2.5. Claude. deepseek. gemini. google. o1.. 2.5. Claude. deepseek. gemini. google. o1. pro.. 2.5. Claude. deepseek. gemini. google. o1. pro. reasoning.. 2.5. Claude. deepseek. gemini. google. o1. pro. reasoning. искусственный интеллект.. 2.5. Claude. deepseek. gemini. google. o1. pro. reasoning. искусственный интеллект. Машинное обучение.. 2.5. Claude. deepseek. gemini. google. o1. pro. reasoning. искусственный интеллект. Машинное обучение. нейросети.

Моя первая статья на Хабре, хочу поделиться своими находками и мыслями.

На этой неделе вышла новая модель Gemini 2.5 Pro от Google. Много уже было про нее сказано, но я стараюсь не обращать внимания на волны хайпа вокруг новинок, ориентируясь на свои доверенные источники. Одним из них является любительский бенчмарк SimpleBench, который тестирует здравый смысл в реальной жизни. Этот бенчмарк интересен тем, что в нем самый обычный человек набирает 83.7%, а передовые ИИ модели до сих пор не могут даже приблизиться к этому показателю. Пример вопроса (вольный перевод на русский):

Джону 24 года, он добрый, внимательный и склонный извиняться человек. Он стоит в современной, минималистичной, в остальном пустой ванной комнате, освещенной неоновой лампочкой, и чистит зубы, глядя в зеркало размером 20 на 20 сантиметров. Джон замечает, как неоновая лампочка диаметром 10 см падает со скоростью около 3 метров в секунду на голову лысого мужчины, которого он внимательно разглядывает в зеркале (голова мужчины находится в метре под лампочкой). Джон поднимает взгляд, но не успевает поймать лампочку до того, как она ударяет лысого мужчину. Лысый мужчина ругается, кричит: «Ну и идиот!» — и выходит из ванной. Следует ли Джону, знающему номер этого мужчины, отправить ему позже сообщение с вежливым извинением?

Очевидно, что лысый мужчина в зеркале — это сам Джон, и ему не нет смысла ни перед кем извиняться. Но у разных моделей ИИ на счет этого и других подобных вопросов (которых в бенчмарке более 200) может быть свое мнение. Недавно вышедший Claude 3.7 Sonnet набирает только 46.4%, и до выхода Gemini 2.5 Pro это был лучший показатель.

На результаты SimpleBench я ориентируюсь как на сильный индикатор того, насколько та или иная модель понимает реальный мир. И когда сегодня утром оказалось, что Gemini 2.5 Pro набирает 51.6%, мой интерес к моделям от Google моментально возрос.

Когда в 11 классе я выбирал карьерный путь программиста, я мечтал автоматизировать человеческий труд. Я считаю очень красивым, когда полезная работа может делаться быстро, точно и бесперебойно – это не только освобождает людей от рутины, но и способствует более быстрому техническому прогрессу. И когда настала эра LLM, как вы понимаете, я был в полном восторге от реальных шагов к AGI, который мог бы не только заменить практически любой труд, но и дать человечеству шанс получить то, о чем оно всегда мечтало.

В нашей компании я, помимо прочего, занимаюсь разработкой методов, благодаря которым можно было бы выполнять через LLM как можно больше полезной интеллектуальной работы, которую еще недавно делал человек. Я научился писать около 80% кода (в том числе очень комплексного) через LLM, да еще и так, чтобы он соответствовал самым высоким стандартам качества. Если все получится, я надеюсь, что 70-90% интеллектуальной работы не только разработчиков, но и системных аналитиков и тестировщиков на нашем проекте сможет выполнять ИИ, значительно повысив производительность команды и даже качество программного продукта.

Участие человека потребуется только в точках, где формализованная задача соприкасается с реальностью, так как ИИ все еще достаточно плохо понимают, как устроен мир. Но когда в SimpleBench появляется новый лидер, я просто обязан его протестировать, так как в моем понимании, результат на бенчмарке отражает как раз то, насколько ИИ готов заменить человека в этих самых узких точках. И Gemini 2.5 Pro меня не разочаровал.

Главная особенность Gemini в огромной длине контекста – в то время как другие передовые LLM только добираются до 200 тыс токенов, Gemini уже давно умеет работать с 1 и даже 2 млн. Но раньше модели этой серии проседали в общей сообразительности, что делало гигантский контекст не особо полезным. Gemini 2.5 Pro же находится на передовой и в классических бенчмарках, в пух и прах разбивая конкурентов, когда нужно работать с 100к+ токенов.

Конечно же, это не значит, что теперь можно скармливать на вход простыни текста, не задумываясь, а точно ли все это требуется для задачи. Правильный выбор контекста – это основная задача пользователя LLM. Чем больше в контексте не относящейся к задаче информации, тем хуже модель может выделить суть и правильно интерпретировать ее. Это же, кстати, всегда было актуально и при организации интеллектуального труда человека) Просто теперь для тех задач, где сформировать более краткий контекст проблематично, и с которыми поэтому не справляются другие модели, появилось хорошее решение.

Кроме того, Gemini лидирует в Humanity’s Last Exam то есть она обладает самыми обширными знаниями о мире среди конкурентов, к тому же, очень актуальными – до января 2025. Ну и помимо прочего, Gemini напичкана различными фичами вроде анализа видео, общения голосом в реальном времени, поиска в интернете (хотя его возможности не идут ни в какое сравнение с Deep Research от OpenAI) и запуска кода, чего только там нет. Но лично для меня эти навороты намного менее важны, чем чистые интеллектуальные возможности. А, и Google вдобавок ко всему дает доступ к этой модели бесплатно с лимитом 50 сообщений в день, чего лично мне, благодаря тому, что я умею заставить ИИ выдать то, что нужно, с первого раза, чаще всего достаточно. Код я, скорее всего, продолжу писать на Claude 3.7 Sonnet, но для решения многих других задач, думаю, перейду на Gemini 2.5 Pro.

Рассуждающие модели

Gemini 2.5 Pro также относится к категории “рассуждающих” моделей, которые тратят существенные мощности на планирование ответа, в отличие от классических LLM, которые отвечают сходу. Первой тренд задала OpenAI со своей моделью o1, которая в сентябре 2024 стала реальным прорывом, значительно снизив количество дурацких логических ошибок, свойственных моделям того времени. Утверждалось, что она работает на основе “токенов рассуждений”, которые точно не являются просто словами и ближе скорее к мыслям. Это выглядит как очень здравый подход – ведь нейросети строятся на схожих принципах, что и человеческий мозг, а человек при решении задач мыслит уж точно не только словами.

В 2025 году подтянулись многие другие компании вроде Anthropic, Google, DeepSeek, Alibaba со своими “рассуждающими” моделями. А OpenAI публично выпустила o3-mini, относящуюся к следующему поколению своих моделей. Но я, протестировав сегодня внимательнее не только Gemini 2.5 Pro, но и некоторые из рассуждающих моделей, на которые раньше не обращал внимания, заметил одну интересную особенность, и хочу поделиться своими наблюдениями. Возможно, я ошибаюсь, но сейчас я воспринимаю ситуацию именно так.

Впервые существенное отличие рассуждающих моделей OpenAI от топового на то время Claude 3.5 Sonnet я обнаружил на примере задачи, предложенной одним из наших топ-менеджеров. Задача звучит очень просто: найти две строки S и Q, для которых S < Q, а base64(S) > base64(Q). Я сам предварительно подумал над задачей минут 20 и понял, что если мы ограничимся только символами алфавита как для S и Q, так и для base64(S) и base64(Q), то задача не имеет решения, так как последовательность бит при шифровании сохраняется, а следовательно, сохраняется и лексикографический порядок символов, на сегменты какой бы длины они ни были разбиты. Подав эту задачу на вход моему любимчику Claude 3.5 Sonnet, я получил только галлюцинации, утверждающие, что это возможно в символах алфавита. А вот о1, подумав 3 минуты, верно отметил особенности base64 и привел правильный пример без ограничений на алфавитные символы, а также лаконично и верно объяснил, почему это невозможно, когда такое ограничение добавляется. Если интересно, вот промпты, которые я тестировал, бесплатная o3-mini с задачей тоже справляется на ура.

Is it possible for some ASCII strings S and Q that S < Q but base64(S) > base64(Q)?

Is it possible for some ASCII strings S and Q consisting of English letters that S < Q but base64(S) > base64(Q) (where encoded in base64 strings also consist of English letters)?

С тех пор эта задача стала чем-то вроде моего микро-бенчмарка для ИИ, и сегодня я прогнал на ней некоторые другие “рассуждающие” модели, включая Gemini 2.5 Pro. Вот мои результаты:

  • Claude 3.7 Sonnet thinking не справился с задачей

  • DeepSeek R1 не справился с задачей

  • Gemini 2.5 Pro справился с задачей, но доказательство невозможности во второй постановке выдал хоть и правильное, но очень техническое, запутанное и труднопонимаемое, модель не дошла до главного инсайта

  • o1 справился с задачей, оба решения были просты и элегантны

  • o3-mini то же самое, но в 14 раз дешевле

При этом я заметил одну особенность. В то время как модели OpenAI сопровождали свои рассуждения краткими сводками, очень похожими на внутренний монолог человека, «рассуждения» остальных были похожи просто на кучу обычного генерируемого текста, возможно, настроенного на этапе post‑training в духе инструкций «подумай хорошенько». Кроме того, o1 и o3-mini после своих размышлений точно и уверенно выдавали финальный текст ответа, а конкуренты посреди своего ответа могли споткнуться и начать его переделывать. И возможно, это является признаком того, что несмотря на весь скепсис в адрес OpenAI и утверждения, что среди лидеров рынка LLM сейчас паритет, у OpenAI все же наибольшая экспертиза в рассуждающих моделях, и за счет настоящих «токенов рассуждений», модели o1 и o3-mini могут решать нетривиальные логические задачи, догадываясь до их сути, а конкуренты просто имитируют рассуждения в своих моделях, хоть и получая при этом некоторый прирост интеллекта. А может я все додумываю, и на самом деле все вовсе не так.

Спасибо, что дочитали до конца, будет интересно узнать ваше мнение в комментариях.

Автор: Iqber

Источник

Рейтинг@Mail.ru
Rambler's Top100