Мультимодальная модель Qwen2.5-VL-32B: успехи в понимании медиа и математических задачах. alibaba.. alibaba. Apache 2.0.. alibaba. Apache 2.0. Qwen2.5-VL-32B.. alibaba. Apache 2.0. Qwen2.5-VL-32B. Блог компании BotHub.. alibaba. Apache 2.0. Qwen2.5-VL-32B. Блог компании BotHub. ИИ.. alibaba. Apache 2.0. Qwen2.5-VL-32B. Блог компании BotHub. ИИ. ии и машинное обучение.. alibaba. Apache 2.0. Qwen2.5-VL-32B. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект.. alibaba. Apache 2.0. Qwen2.5-VL-32B. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. метаматические задачи.. alibaba. Apache 2.0. Qwen2.5-VL-32B. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. метаматические задачи. мультимодальная модель.. alibaba. Apache 2.0. Qwen2.5-VL-32B. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. метаматические задачи. мультимодальная модель. тесты.

Компания Alibaba представила свою новейшую мультимодальную модель искусственного интеллекта Qwen2.5-VL-32B, выпущенную под лицензией Apache 2.0. Предварительные тесты показывают, что эта модель превосходит более крупных конкурентов, таких как Gemma 3-27B и Mistral Small 3.1 24B. В некоторых тестах он даже превосходит собственный Qwen2-VL-72B от Alibaba и более старые версии GPT-4o от OpenAI, но не текущую версию.

Мультимодальная модель Qwen2.5-VL-32B: успехи в понимании медиа и математических задачах - 1

Модель достигает наивысших результатов в MMMU (Multimodal Machine Understanding) — тесте, который проверяет, насколько хорошо системы ИИ понимают различные типы медиа, и в MathVista, который оценивает математические рассуждения с использованием изображений. Тест MM-MT-Bench, который измеряет качество взаимодействия, показывает значительные улучшения по сравнению с предшественником. Эти улучшения распространяются и на задачи, связанные с чистым текстом.

Разработчик Саймон Уиллисон протестировал Qwen2.5-VL-32B на компьютере Mac с 64 ГБ оперативной памяти. Его тесты показали, что модель может предоставлять подробные, хорошо структурированные описания сложных прибрежных карт, точно интерпретируя линии глубин и географические особенности.

Пользователи Apple Silicon могут выбирать из нескольких оптимизированных версий модели, включая 4-битные, 6-битные, 8-битные и bf16-версии, что делает её доступной для различных аппаратных конфигураций.

Команда Qwen планирует сосредоточиться на разработке более длительных и эффективных процессов мышления для решения сложных визуальных задач. Это продолжение работы, которую они начали с QVQ, их первой мультимодальной моделью с возможностями мышления, выпущенной в конце 2024 года.

Источник

Автор: mefdayy

Источник