Дебаты по поводу бенчмаркинга ИИ достигли Pokémon. anthropic.. anthropic. Claude.. anthropic. Claude. google gemini.. anthropic. Claude. google gemini. Pokémon.. anthropic. Claude. google gemini. Pokémon. Блог компании BotHub.. anthropic. Claude. google gemini. Pokémon. Блог компании BotHub. ИИ.. anthropic. Claude. google gemini. Pokémon. Блог компании BotHub. ИИ. ии и машинное обучение.. anthropic. Claude. google gemini. Pokémon. Блог компании BotHub. ИИ. ии и машинное обучение. ии-модели.. anthropic. Claude. google gemini. Pokémon. Блог компании BotHub. ИИ. ии и машинное обучение. ии-модели. искусственный интеллект.. anthropic. Claude. google gemini. Pokémon. Блог компании BotHub. ИИ. ии и машинное обучение. ии-модели. искусственный интеллект. тестирование.

Даже покемоны не защищены от споров о бенчмаркинге искусственного интеллекта. На прошлой неделе пост на X стал вирусным. В нём утверждалось, что последняя модель Google Gemini превзошла флагманскую модель Claude от Anthropic в оригинальной трилогии видеоигр Pokémon. Сообщается, что Gemini достиг Лавандового города на стриме разработчика на Twitch, а Claude застрял на горе Мун в конце февраля.

Дебаты по поводу бенчмаркинга ИИ достигли Pokémon - 1

Но о чём не упомянули, так это о том, что у Gemini было преимущество.

Как отметили пользователи на Reddit, разработчик, который ведет трансляцию Gemini, создал пользовательскую мини-карту, которая помогает модели распознавать «плитки» в игре, например, деревья, которые можно срубить. Это снижает потребность Gemini в анализе скриншотов перед принятием игровых решений.

Сейчас Pokémon — это в лучшем случае полусерьёзный тест ИИ. Мало кто станет спорить, что это очень информативный тест возможностей модели. Но это поучительный пример того, как разные реализации теста могут влиять на результаты.

Например, компания Anthropic сообщила о двух результатах своей недавней модели Anthropic 3.7 Sonnet на эталонном тесте SWE-bench Verified, который предназначен для оценки способности модели к кодированию. Модель Claude 3.7 Sonnet показала точность 62,3% на SWE-bench Verified, но 70,3% с «пользовательской структурой», разработанной компанией Anthropic.

Совсем недавно Meta* доработала версию одной из своих новых моделей, Llama 4 Maverick, чтобы она хорошо справлялась с конкретным тестом LM Arena. Обычная версия модели показывает значительно худшие результаты в том же тесте.

Учитывая, что тесты ИИ, в том числе с участием покемонов, изначально являются несовершенными мерилами, пользовательские и нестандартные реализации грозят ещё больше всё запутать. Иными словами, маловероятно, что сравнение моделей по мере их выпуска станет проще.

Источник

Автор: mefdayy

Источник

Рейтинг@Mail.ru
Rambler's Top100