OpenAI o3 демонстрирует почти идеальную производительность в тесте с длинным контекстом. Fiction.LiveBench.. Fiction.LiveBench. meta.. Fiction.LiveBench. meta. openai o3.. Fiction.LiveBench. meta. openai o3. Блог компании BotHub.. Fiction.LiveBench. meta. openai o3. Блог компании BotHub. ИИ.. Fiction.LiveBench. meta. openai o3. Блог компании BotHub. ИИ. ии и машинное обучение.. Fiction.LiveBench. meta. openai o3. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект.. Fiction.LiveBench. meta. openai o3. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. Машинное обучение.. Fiction.LiveBench. meta. openai o3. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. Машинное обучение. модели ии.. Fiction.LiveBench. meta. openai o3. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. Машинное обучение. модели ии. тестирование моделей.

Один из самых убедительных результатов недавних тестов o3 — его производительность при выполнении задач с длительным контекстом.

OpenAI o3 демонстрирует почти идеальную производительность в тесте с длинным контекстом

Поддерживая до 200 000 токенов, o3 является первой моделью, которая достигла 100-процентного результата на тесте Fiction.live с использованием 128 000 токенов — это примерно 96 000 слов. Для любой языковой модели, работающей с обширными повествованиями или большими документами, это значительный шаг вперёд. Единственная модель, которая близка к этому показателю, — Google Gemini 2.5 Pro, набравшая 90,6 процента, в то время как o3-mini и o4-mini значительно отстают.

OpenAI o3 демонстрирует почти идеальную производительность в тесте с длинным контекстом - 2

Тест Fiction.LiveBench разработан для оценки способности моделей полностью осознавать и точно передавать смысл длинных и сложных текстов, включая контекст.

Например, Llama 4 от Meta* рекламирует контекстное окно размером до десяти миллионов токенов — на бумаге это число кажется впечатляющим. Но на практике оно едва ли полезно для чего-то, кроме простого поиска слов, и не справляется с осмысленным пониманием длинных текстов.

Дело не только в Llama 4. В целом, многие модели плохо справляются с пониманием контекста, превращая эти огромные контекстные окна скорее в маркетинговый трюк, чем в реальную возможность. В худшем случае они создают у пользователей иллюзию, что модель обрабатывает весь документ, хотя на самом деле большая часть текста остаётся без внимания — недостаток, отмеченный во многих исследованиях.

Для тех, кто сталкивается с реальными задачами, требующими стабильной и эффективной работы с большими объёмами данных, o3 теперь является явным лидером.

*Meta и ее продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Автор: mefdayy

Источник

Рейтинг@Mail.ru
Rambler's Top100