qwen2.5.

Применение локальных LLM для OCR

Вдруг кому-то будет полезно. Возникла задача быстрого распознавания данных с фотографий и получения из них структурированной информации. Так же важно было отсутствие требовательного к ресурсам ПО и легкость разворачивания системы. Поэтому было решено попробовать использовать в качестве подключаемого модуля мультимодальные LLM запускаемые под Ollama, т.к. у неё есть REST API по которому удобно обращаться к модели.В последних версиях Ollama появился графический интерфейс, но он неудобен. Модели в ollama проще всего загрузить из командной строки. Например: ollama pull codellama.

продолжить чтение

Как мы дистиллировали Qwen для автоматического протоколирования совещаний

Протоколирование совещаний — важная часть корпоративной коммуникации: протоколы позволяют быстро восстановить ключевые моменты, не переслушивая часовые записи. Нас зовут Андрей Ситников и Максим Шкут, мы работаем DS в команде департамента анализа данных и моделирования ВТБ, занимаемся задачей автоматического протоколирования встреч. Мы реализуем ее с помощью LLM-модели Qwen. В этой статье расскажем, как мы оптимизировали inference, сохранив качество генерации протоколов.Эта статья – саммари нашего выступления на Data Fest 2025. Запись выступления вы можете найти по ссылке

продолжить чтение

LIMO: Меньше — значит больше для рассуждающих LLM

Мизерный объем задач с ответами может разбудить спящего LLM-льва..."Мы представляем фундаментальное открытие, которое бросает вызов нашему пониманию того, как сложные рассуждения возникают в больших языковых моделях"

продолжить чтение

Разработчик выявил представления разных нейросетей о среднестатистическом человеке

Разработчик Джеймс Хэнкок представил свой мини-проект Imagine a person, в рамках которого он попытался выяснить, каким представляют себе разные нейросети среднестатистического человека. Для этого он прогонял специально созданный промпт через каждую ИИ-модель 100 раз.

продолжить чтение

Новая модель искусственного интеллекта Alibaba превосходит DeepSeek-V3

Компания Alibaba разработала новую языковую модель под названием Qwen2.5-Max, которая, по словам компании, использует рекордное количество обучающих данных — более 20 триллионов токенов.Компания Alibaba представила Qwen2.5-Max — новую языковую AI-модель, обученную на рекордных, по заявлению компании,

продолжить чтение

Alibaba заявляет, что её новая модель Qwen2.5-VL является полезным «визуальным агентом»

В рамках своей серии Qwen2.5 компания Alibaba представила новую мультимодальную визуальную языковую модель, которая стала ещё одним шагом на пути к развитию искусственного интеллекта в коммерческой сфере.Основываясь на модели 

продолжить чтение

Не DeepSeek’ом единым: вышел Qwen2.5-Max от Alibaba

В последние дни мы наблюдаем уже не столько за битвой OpenAI и DeepSeek, сколько за баталиями DeepSeek против Qwen. И вот Qwen наносят новый удар. И это после того, как уже был релиз Qwen2.5-VL и релиз Qwen2.5 с контекстом в 1 миллион токенов.Вчера была выпущена LLM-модель Qwen2.5-Max. Он превосходит DeepSeek V3 в таких бенчмарках, как Arena-Hard, LiveBench, LiveCodeBench и GPQA-Diamond, а также демонстрирует близкие результаты в других бенчмарках, как к примеру MMLU-Pro.Коротко о модели и архитектуре

продолжить чтение

Rambler's Top100