В Ollama добавлена поддержка мультимодальной модели Llama3.2-vision. llama3.2.. llama3.2. llm.. llama3.2. llm. ollama.. llama3.2. llm. ollama. vision.. llama3.2. llm. ollama. vision. Блог компании HOSTKEY.. llama3.2. llm. ollama. vision. Блог компании HOSTKEY. искусственный интеллект.. llama3.2. llm. ollama. vision. Блог компании HOSTKEY. искусственный интеллект. мультимодальные модели.. llama3.2. llm. ollama. vision. Блог компании HOSTKEY. искусственный интеллект. мультимодальные модели. нейросети.

В Ollama наконец то появилась долгожданная поддержка мультимодальной модели Llama3.2-vision. Эта модель оптимизирована для распознавания изображений, создания описаний к ним и ответов на общие вопросы об изображении.

В Ollama добавлена поддержка мультимодальной модели Llama3.2-vision - 1

Доступны версии модели на 11B (занимает ~13Гб видеопамяти) и на 90B, для запуска которой рекомендуется что-то на уровне H100 на 80 Гб для полной «прогрузки» модели в видеопамять и не использования GPU offload.

Работа в режиме распознавания изображений официально поддерживает только английский язык, но модель может перевести вывод и на русский (если попросить в промте).

Чтобы попробовать данную модель (например, в нашем AI-чатботе на основе Open WebUI) вам нужно:

  1. Обновить Ollama до версии 0.4.0. На Windows и Mac это будет предложено сделать автоматически, под Linux нужно запустить команду curl -fsSL https://ollama.com/install.sh | sh

  2. Установить модель командой (для 11B) ollama run llama3.2-vision или через интерфейс чат-бота.

  3. На Linux желательно перезапустить сервис ollama (service ollama restart) и docker контейнер c open-webui (docker restart open-webui), если вы используете эту связку.

Загружать изображения в Open WebUI можно через добавление файлов (плюс слева от строки чата). На Windows или Mac можно просто перетащить изображение в окно командной строки с запущенной моделью в Ollama, или (в Linux тоже) указать путь до него.

Автор: akdengi

Источник

Rambler's Top100