Творческий подход к тестированию ИИ: Minecraft Benchmark
Поскольку традиционные методы тестирования ИИ оказываются неэффективными, разработчики ИИ прибегают к более творческим способам оценки возможностей генеративных моделей ИИ. Для одной группы разработчиков таким способом является Minecraft.Веб-сайт Minecraft Benchmark
Испытание ИИ-моделей. Sonnet vs qwen
Я выбираю себе модели ИИ, с которыми буду работать. Пока лучшей показывает себя Claude 3.5 Sonnet, но, к сожалению, это дорогая модель. Для 1000 запросов в месяц расчёты показывают расход в 40 000–90 000 рублей, что для меня сильно дорого. Мне можно тратить максимум 10 000 рублей. Посоветовали qwen от alibaba, и сегодня подвернулась задача, на которой захотелось протестировать эти модели. У меня уже был готовый компонент для CMF MODX, добавляющий в последний интернет-магазин для «Майнкрафт».
Игру Super Mario начали использовать для тестирования ИИ
Исследовательская организация Калифорнийского университета Hao AI Lab начала использовать игры Super Mario Bros. для тестирования моделей ИИ. Лучше всего себя проявили Claude 3.7 от Anthropic и Claude 3.5. При этом у Gemini 1.5 Pro от Google и GPT-4o от OpenAI возникли трудности.Игра работала в эмуляторе, её интегрировали с фреймворком GamingAgent
Прогресс в AGI вызывает сомнения
Тест ARC-AGI (сокр. Abstract and Reasoning Corpus for Artificial General Intelligence), созданный в 2019 году ведущей фигурой в AI Франсуа Шолле для оценки способностей искусственного интеллекта к обучению, показывает улучшение результатов. Однако это может свидетельствовать скорее о недочетах в самом тесте, чем о реальном прорыве в развитии ИИ.