Мультимодальная модель Qwen2.5-VL-32B: успехи в понимании медиа и математических задачах

Компания Alibaba представила ^[1] свою новейшую мультимодальную модель искусственного интеллекта ^[2] Qwen2.5-VL-32B, выпущенную под лицензией Apache 2.0. Предварительные тесты показывают, что эта модель превосходит более крупных конкурентов, таких как Gemma 3-27B ^[3] и Mistral Small 3.1 24B ^[4]. В некоторых тестах он даже превосходит собственный Qwen2-VL-72B ^[5] от Alibaba и более старые версии GPT-4o ^[6] от OpenAI, но не текущую версию ^[7].

Модель достигает наивысших результатов в MMMU (Multimodal Machine Understanding) — тесте, который проверяет, насколько хорошо системы ИИ понимают различные типы медиа, и в MathVista, который оценивает математические рассуждения с использованием изображений. Тест MM-MT-Bench, который измеряет качество взаимодействия, показывает значительные улучшения по сравнению с предшественником. Эти улучшения распространяются и на задачи, связанные с чистым текстом.

Разработчик Саймон Уиллисон ^[8] протестировал Qwen2.5-VL-32B на компьютере Mac с 64 ГБ оперативной памяти ^[9]. Его тесты показали, что модель может предоставлять подробные, хорошо структурированные описания сложных прибрежных карт, точно интерпретируя линии глубин и географические особенности.

Пользователи Apple Silicon могут выбирать из нескольких оптимизированных версий модели, включая 4-битные, 6-битные, 8-битные и bf16-версии, что делает её доступной для различных аппаратных конфигураций.

Команда Qwen планирует сосредоточиться на разработке более длительных и эффективных процессов мышления ^[10] для решения сложных визуальных задач. Это продолжение работы, которую они начали с QVQ ^[11], их первой мультимодальной моделью с возможностями мышления, выпущенной в конце 2024 года.

Источник ^[12]

Автор: mefdayy

Источник ^[13]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/13559

URLs in this post:

[1] представила: https://qwenlm.github.io/blog/qwen2.5-vl-32b/

[2] интеллекта: http://www.braintools.ru/article/7605

[3] Gemma 3-27B: https://the-decoder.de/gemma-3-google-veroeffentlicht-neue-open-model-familie/

[4] Mistral Small 3.1 24B: https://the-decoder.de/mistral-veroeffentlicht-aktualisiertes-multimodales-ki-modell-small-3-1/

[5] Qwen2-VL-72B: https://the-decoder.de/alibabas-mini-open-source-modell-qwen2-vl-analysiert-mehr-als-20-minuten-videomaterial/

[6] GPT-4o: https://the-decoder.de/openai-kuendigt-gpt-4o-als-neues-spitzenmodell-mit-audio-und-bildfunktionen-an/

[7] текущую версию: https://the-decoder.de/openai-veroeffentlicht-chatgpt-update-mit-neuem-gpt-4o-modell/

[8] Саймон Уиллисон: https://simonwillison.net/2025/Mar/24/qwen25-vl-32b/

[9] памяти: http://www.braintools.ru/article/4140

[10] мышления: http://www.braintools.ru/thinking

[11] QVQ: https://the-decoder.de/alibabas-qvq-ist-ein-grosses-offenes-vision-language-model-mit-schlussfolgerung/

[12] Источник: https://the-decoder.com/alibabas-qwen2-5-vl-32b-matches-larger-models-with-just-32b-parameters/

[13] Источник: https://habr.com/ru/companies/bothub/news/894474/?utm_source=habrahabr&utm_medium=rss&utm_campaign=894474

Нажмите здесь для печати.