big-bench.

Тест BIG-Bench Extra Hard: как он выявляет недостатки в больших языковых моделях

В 2021 году был создан BIG-Bench — универсальный инструмент для тестирования больших языковых моделей. Однако с развитием технологий современные модели стали обеспечивать точность более 90%, и BIG-Bench достиг своего предела. В ответ на это Google DeepMind разработала тест BIG-Bench Extra Hard (BBEH), который позволяет выявлять существенные недостатки даже в самых передовых моделях ИИ.

Рейтинг@Mail.ru
Rambler's Top100