- BrainTools - https://www.braintools.ru -
Компания Alibaba представила [1] свою новейшую мультимодальную модель искусственного интеллекта [2] Qwen2.5-VL-32B, выпущенную под лицензией Apache 2.0. Предварительные тесты показывают, что эта модель превосходит более крупных конкурентов, таких как Gemma 3-27B [3] и Mistral Small 3.1 24B [4]. В некоторых тестах он даже превосходит собственный Qwen2-VL-72B [5] от Alibaba и более старые версии GPT-4o [6] от OpenAI, но не текущую версию [7].
Модель достигает наивысших результатов в MMMU (Multimodal Machine Understanding) — тесте, который проверяет, насколько хорошо системы ИИ понимают различные типы медиа, и в MathVista, который оценивает математические рассуждения с использованием изображений. Тест MM-MT-Bench, который измеряет качество взаимодействия, показывает значительные улучшения по сравнению с предшественником. Эти улучшения распространяются и на задачи, связанные с чистым текстом.
Разработчик Саймон Уиллисон [8] протестировал Qwen2.5-VL-32B на компьютере Mac с 64 ГБ оперативной памяти [9]. Его тесты показали, что модель может предоставлять подробные, хорошо структурированные описания сложных прибрежных карт, точно интерпретируя линии глубин и географические особенности.
Пользователи Apple Silicon могут выбирать из нескольких оптимизированных версий модели, включая 4-битные, 6-битные, 8-битные и bf16-версии, что делает её доступной для различных аппаратных конфигураций.
Команда Qwen планирует сосредоточиться на разработке более длительных и эффективных процессов мышления [10] для решения сложных визуальных задач. Это продолжение работы, которую они начали с QVQ [11], их первой мультимодальной моделью с возможностями мышления, выпущенной в конце 2024 года.
Источник [12]
Автор: mefdayy
Источник [13]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/13559
URLs in this post:
[1] представила: https://qwenlm.github.io/blog/qwen2.5-vl-32b/
[2] интеллекта: http://www.braintools.ru/article/7605
[3] Gemma 3-27B: https://the-decoder.de/gemma-3-google-veroeffentlicht-neue-open-model-familie/
[4] Mistral Small 3.1 24B: https://the-decoder.de/mistral-veroeffentlicht-aktualisiertes-multimodales-ki-modell-small-3-1/
[5] Qwen2-VL-72B: https://the-decoder.de/alibabas-mini-open-source-modell-qwen2-vl-analysiert-mehr-als-20-minuten-videomaterial/
[6] GPT-4o: https://the-decoder.de/openai-kuendigt-gpt-4o-als-neues-spitzenmodell-mit-audio-und-bildfunktionen-an/
[7] текущую версию: https://the-decoder.de/openai-veroeffentlicht-chatgpt-update-mit-neuem-gpt-4o-modell/
[8] Саймон Уиллисон: https://simonwillison.net/2025/Mar/24/qwen25-vl-32b/
[9] памяти: http://www.braintools.ru/article/4140
[10] мышления: http://www.braintools.ru/thinking
[11] QVQ: https://the-decoder.de/alibabas-qvq-ist-ein-grosses-offenes-vision-language-model-mit-schlussfolgerung/
[12] Источник: https://the-decoder.com/alibabas-qwen2-5-vl-32b-matches-larger-models-with-just-32b-parameters/
[13] Источник: https://habr.com/ru/companies/bothub/news/894474/?utm_source=habrahabr&utm_medium=rss&utm_campaign=894474
Нажмите здесь для печати.