Тест BIG-Bench Extra Hard: как он выявляет недостатки в больших языковых моделях
В 2021 году был создан BIG-Bench — универсальный инструмент для тестирования больших языковых моделей. Однако с развитием технологий современные модели стали обеспечивать точность более 90%, и BIG-Bench достиг своего предела. В ответ на это Google DeepMind разработала тест BIG-Bench Extra Hard (BBEH), который позволяет выявлять существенные недостатки даже в самых передовых моделях ИИ.
Рост популярности агентов, использующих браузеры: почему Proxy превосходит Operator
Появляется новая волна агентов, использующих браузеры на базе искусственного интеллекта, которые обещают изменить то, как предприятия взаимодействуют с Интернетом. Эти агенты могут автономно перемещаться по веб-сайтам, получать информацию и даже завершать транзакции, но предварительное тестирование выявило значительные расхождения между обещаниями и производительностью.
Как масштабирование во время тестирования раскрывает скрытые способности к рассуждению в небольших языковых моделях
Согласно новому исследованию Шанхайской лаборатории искусственного интеллекта, очень маленькие языковые модели (SLM) могут превзойти ведущие большие языковые модели (LLM) в задачах рассуждения. Авторы показывают, что при наличии правильных инструментов и методов масштабирования во время тестирования SLM с 1 миллиардом параметров может превзойти LLM 405B в сложных математических тестах.