2.5.
Gemini 2.5 Pro еще ближе к человеку, но реально рассуждать умеют только модели OpenAI
Моя первая статья на Хабре, хочу поделиться своими находками и мыслями.На этой неделе вышла новая модель Gemini 2.5 Pro от Google. Много уже было про нее сказано, но я стараюсь не обращать внимания на волны хайпа вокруг новинок, ориентируясь на свои доверенные источники. Одним из них является любительский бенчмарк SimpleBench, который тестирует здравый смысл в реальной жизни. Этот бенчмарк интересен тем, что в нем самый обычный человек набирает 83.7%, а передовые ИИ модели до сих пор не могут даже приблизиться к этому показателю. Пример вопроса (вольный перевод на русский):