тестирование моделей.

Maverick от Meta* на LM Arena: различия между экспериментальной версией и версией для разработчиков

Одна из новых флагманских моделей ИИ, выпущенных Meta в субботу, Maverick, занимает второе место на LM Arena — тесте, в котором люди-эксперты сравнивают результаты работы моделей и выбирают ту, которая им больше нравится. Но, похоже, версия Maverick, которую Meta использовала на LM Arena, отличается от версии, широко доступной разработчикам.

Тест BIG-Bench Extra Hard: как он выявляет недостатки в больших языковых моделях

В 2021 году был создан BIG-Bench — универсальный инструмент для тестирования больших языковых моделей. Однако с развитием технологий современные модели стали обеспечивать точность более 90%, и BIG-Bench достиг своего предела. В ответ на это Google DeepMind разработала тест BIG-Bench Extra Hard (BBEH), который позволяет выявлять существенные недостатки даже в самых передовых моделях ИИ.

Рост популярности агентов, использующих браузеры: почему Proxy превосходит Operator

Появляется новая волна агентов, использующих браузеры на базе искусственного интеллекта, которые обещают изменить то, как предприятия взаимодействуют с Интернетом. Эти агенты могут автономно перемещаться по веб-сайтам, получать информацию и даже завершать транзакции, но предварительное тестирование выявило значительные расхождения между обещаниями и производительностью.

Как масштабирование во время тестирования раскрывает скрытые способности к рассуждению в небольших языковых моделях

Согласно новому исследованию Шанхайской лаборатории искусственного интеллекта, очень маленькие языковые модели (SLM) могут превзойти ведущие большие языковые модели (LLM) в задачах рассуждения. Авторы показывают, что при наличии правильных инструментов и методов масштабирования во время тестирования SLM с 1 миллиардом параметров может превзойти LLM 405B в сложных математических тестах.

Рейтинг@Mail.ru
Rambler's Top100