Anthropic протестировала модель Claude 3.7 Sonnet на игре Pokémon Red. anthropic.. anthropic. claude 3.7 sonnet.. anthropic. claude 3.7 sonnet. Pokémon.. anthropic. claude 3.7 sonnet. Pokémon. Блог компании BotHub.. anthropic. claude 3.7 sonnet. Pokémon. Блог компании BotHub. ИИ.. anthropic. claude 3.7 sonnet. Pokémon. Блог компании BotHub. ИИ. ии и машинное обучение.. anthropic. claude 3.7 sonnet. Pokémon. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект.. anthropic. claude 3.7 sonnet. Pokémon. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. Машинное обучение.. anthropic. claude 3.7 sonnet. Pokémon. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. Машинное обучение. тестирование.

Компания Anthropic использовала Pokémon для тестирования своей новейшей модели искусственного интеллекта

Anthropic протестировала модель Claude 3.7 Sonnet на игре Pokémon Red - 1

В сообщении блога, опубликованном в понедельник, компания Anthropic сообщила, что протестировала свою последнюю модель Claude 3.7 Sonnet на классической версии Game Boy Pokémon Red. Компания оснастила модель базовой памятью, возможностью ввода пикселей на экране и вызовами функций для нажатия кнопок и перемещения по экрану, что позволяет играть в Pokémon непрерывно.

Уникальной особенностью Claude 3.7 Sonnet является его способность к «расширенному мышлению». Как и o3-mini от OpenAI и R1 от DeepSeek, Claude 3.7 Sonnet может «рассуждать» о сложных задачах, применяя больше вычислений и тратя больше времени.

По-видимому, это пригодилось в Pokémon Red.

В отличие от предыдущей версии, Claude 3.7 Sonnet успешно преодолел испытания и победил трёх лидеров спортзалов покемонов, получив их значки.

Anthropic протестировала модель Claude 3.7 Sonnet на игре Pokémon Red - 2

Теперь неясно, сколько вычислений потребовалось модели Claude 3.7 Sonnet, чтобы достичь этих результатов, и сколько времени это заняло. Компания Anthropic сообщила только, что модель выполнила 35 000 действий, чтобы достичь последнего уровня, Surge.

Наверняка пройдет совсем немного времени, прежде чем какой-нибудь предприимчивый разработчик узнает об этом.

Pokémon Red — это скорее игрушка, чем что-то серьёзное. Однако существует долгая история использования игр для тестирования ИИ. Только за последние несколько месяцев появилось несколько новых приложений и платформ для тестирования игровых способностей моделей в играх от Street Fighter до Pictionary.

Источник

Автор: mefdayy

Источник

Рейтинг@Mail.ru
Rambler's Top100