- BrainTools - https://www.braintools.ru -
Компания Tencent заявляет, что её новая модель Hunyuan-T1 может соперничать с лучшими системами обработки данных OpenAI.
Следуя подходу, используемому для всех крупных моделей логического мышления [1], Tencent в значительной степени полагалась на обучение с подкреплением во время разработки [2]. 96,7% вычислительной мощности после обучения [3] было направлено на улучшение логического мышления и соответствие человеческим предпочтениям.
В MMLU-PRO, где проверяются знания по 14 предметным областям, Hunyuan-T1 набрал 87,2 балла, заняв второе место после OpenAI o1. В тесте GPQA-diamond на научные рассуждения он набрал 69,3 балла.
Tencent утверждает, что эта модель особенно хорошо справляется с математическими задачами. Она набрала 96,2 балла в тесте MATH-500, уступив только Deepseek-R1. [4] Другие высокие результаты включают LiveCodeBench (64,9 балла) и ArenaHard (91,9 балла).
Для обучения Tencent внедрила подход по учебной программе [5], постепенно увеличивая сложность задач. Компания также разработала систему самообучения, в которой более ранние версии модели оценивали результаты более новых версий для улучшения.
Модель использует архитектуру Transformer Mamba [6], которая, по словам Tencent, обрабатывает длинные тексты в два раза быстрее, чем обычные модели в аналогичных условиях. Hunyuan-T1 доступен через Tencent Cloud [7], а демонстрационная версия доступна на Hugging Face [8].
Этот релиз следует за недавним представлением компанией Baidu собственной модели уровня o1 [9] и предыдущим релизом компании Alibaba [10]. Alibaba, Baidu и Deepseek придерживаются стратегий с открытым исходным кодом. Инвестор в области ИИ и бывший глава Google в Китае Кай-Фу Ли описывает эти разработки как экзистенциальную угрозу для OpenAI [11].
Поскольку топовые модели регулярно показывают 90-процентную точность в стандартных тестах, Google DeepMind представил более сложный тест под названием BIG-Bench Extra Hard (BBEH) [12]. Даже лучшие модели испытывают трудности с этим новым тестом — лучшая модель OpenAI, o3-mini (high), показала точность всего 44,8 процента.
Более неожиданным результатом стало то, что Deepseek-R1, несмотря на высокую производительность в других тестах, набрал всего около семи процентов. Такое расхождение показывает, что результаты тестов не отражают полной картины и редко соответствуют реальной производительности, особенно с учётом того, что некоторые команды разработчиков оптимизируют модели специально для этих тестов. У некоторых китайских моделей есть специфические проблемы, например, вставка китайских иероглифов в английские ответы.
Источник [13]
Автор: mefdayy
Источник [14]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/13490
URLs in this post:
[1] мышления: http://www.braintools.ru/thinking
[2] обучение с подкреплением во время разработки: https://the-decoder.com/study-reinforcement-learning-via-self-play-is-key-to-reasoning-in-language-models/
[3] обучения: http://www.braintools.ru/article/5125
[4] Deepseek-R1.: https://the-decoder.com/deepseeks-latest-r1-zero-model-matches-openais-o1-in-reasoning-benchmarks/
[5] подход по учебной программе: https://en.wikipedia.org/wiki/Curriculum_learning
[6] архитектуру Transformer Mamba: https://arxiv.org/pdf/2312.00752
[7] Tencent Cloud: https://cloud.tencent.com/product/hunyuan
[8] демонстрационная версия доступна на Hugging Face: https://huggingface.co/spaces/tencent/Hunyuan-T1
[9] недавним представлением компанией Baidu собственной модели уровня o1: https://the-decoder.com/baidu-claims-its-ernie-x1-reasoning-model-matches-deepseek-r1-performance-at-half-the-price/
[10] предыдущим релизом компании Alibaba: https://the-decoder.com/alibabas-qwq-32b-is-an-efficient-reasoning-model-that-rivals-much-larger-ai-systems/
[11] разработки как экзистенциальную угрозу для OpenAI: https://the-decoder.com/kai-fu-lee-says-openais-sam-altman-probably-not-sleeping-well-as-01-ai-pivots-to-deepseek/
[12] BIG-Bench Extra Hard (BBEH): https://the-decoder.com/openai-beats-deepseek-by-a-surprisingly-wide-margin-in-googles-latest-reasoning-benchmark/
[13] Источник: https://the-decoder.com/tencent-develops-reasoning-model-that-matches-openais-o1-capabilities/
[14] Источник: https://habr.com/ru/companies/bothub/news/893840/?utm_source=habrahabr&utm_medium=rss&utm_campaign=893840
Нажмите здесь для печати.