В Ollama добавлена поддержка мультимодальной модели Llama3.2-vision

В Ollama наконец то появилась ^[1] долгожданная поддержка мультимодальной модели Llama3.2-vision. Эта модель оптимизирована для распознавания изображений, создания описаний к ним и ответов на общие вопросы об изображении.

Доступны версии модели на 11B (занимает ~13Гб видеопамяти) и на 90B, для запуска которой рекомендуется что-то на уровне H100 на 80 Гб для полной «прогрузки» модели в видеопамять и не использования GPU offload.

Работа в режиме распознавания изображений официально поддерживает только английский язык, но модель может перевести вывод и на русский (если попросить в промте).

Чтобы попробовать данную модель (например, в нашем AI-чатботе ^[2] на основе Open WebUI) вам нужно:

Обновить Ollama до версии 0.4.0. На Windows и Mac это будет предложено сделать автоматически, под Linux нужно запустить команду curl -fsSL https://ollama.com/install.sh | sh
Установить модель командой (для 11B) ollama run llama3.2-vision или через интерфейс чат-бота.
На Linux желательно перезапустить сервис ollama (service ollama restart) и docker контейнер c open-webui (docker restart open-webui), если вы используете эту связку.

Загружать изображения в Open WebUI можно через добавление файлов (плюс слева от строки чата). На Windows или Mac можно просто перетащить изображение в окно командной строки с запущенной моделью в Ollama, или (в Linux тоже) указать путь до него.

Автор: akdengi

Источник ^[3]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/10720

URLs in this post:

[1] появилась: https://ollama.com/blog/llama3.2-vision

[2] AI-чатботе: https://hostkey.ru/apps/machine-learning/ollama-ai-chatbot/

[3] Источник: https://habr.com/ru/companies/hostkey/news/856740/?utm_source=habrahabr&utm_medium=rss&utm_campaign=856740

Нажмите здесь для печати.