Компания Alibaba представила свою новейшую мультимодальную модель искусственного интеллекта Qwen2.5-VL-32B, выпущенную под лицензией Apache 2.0. Предварительные тесты показывают, что эта модель превосходит более крупных конкурентов, таких как Gemma 3-27B и Mistral Small 3.1 24B. В некоторых тестах он даже превосходит собственный Qwen2-VL-72B от Alibaba и более старые версии GPT-4o от OpenAI, но не текущую версию.

Модель достигает наивысших результатов в MMMU (Multimodal Machine Understanding) — тесте, который проверяет, насколько хорошо системы ИИ понимают различные типы медиа, и в MathVista, который оценивает математические рассуждения с использованием изображений. Тест MM-MT-Bench, который измеряет качество взаимодействия, показывает значительные улучшения по сравнению с предшественником. Эти улучшения распространяются и на задачи, связанные с чистым текстом.
Разработчик Саймон Уиллисон протестировал Qwen2.5-VL-32B на компьютере Mac с 64 ГБ оперативной памяти. Его тесты показали, что модель может предоставлять подробные, хорошо структурированные описания сложных прибрежных карт, точно интерпретируя линии глубин и географические особенности.
Пользователи Apple Silicon могут выбирать из нескольких оптимизированных версий модели, включая 4-битные, 6-битные, 8-битные и bf16-версии, что делает её доступной для различных аппаратных конфигураций.
Команда Qwen планирует сосредоточиться на разработке более длительных и эффективных процессов мышления для решения сложных визуальных задач. Это продолжение работы, которую они начали с QVQ, их первой мультимодальной моделью с возможностями мышления, выпущенной в конце 2024 года.
Автор: mefdayy
- Запись добавлена: 26.03.2025 в 08:44
- Оставлено в
Советуем прочесть:
- Qwen2-Math — Alibaba Cloud выпустила серию LLM для решения математических задач любой сложности
- Метод “Математических последовательностей”
- Alibaba заявляет, что её новая модель Qwen2.5-VL является полезным «визуальным агентом»
- Не DeepSeek’ом единым: вышел Qwen2.5-Max от Alibaba
- Технический отчет мультимодальной Qwen2.5-VL: прорыв в анализе документов и управлении интерфейсами
- AI copilot программист приличного уровня теперь оффлайн — Qwen 2.5.1 Coder 7B
- Новая модель искусственного интеллекта Alibaba превосходит DeepSeek-V3
- Методы сопоставления
- Новая модель ИИ Light-R1-32B с открытым исходным кодом превосходит аналоги в решении математических задач
- Alibaba выпустила модель Qwen с открытым исходным кодом, которая обрабатывает 1 миллион входных токенов