Бенчмарки Llama-4, предположительно — скам на самом высоком уровне
Буквально пару дней назад, комада Llama сообщила о появлении трех новых нейронок под общим зонтиком Llama-4: быстрый Scout с контекстом 10 миллионов токенов. Медленный Maverick с контекстом 1 миллион, но 128 экспертами под капотом. И гигантский Behemoth, который использовался как учитель для предыдущих двух. 10 миллионов токенов и нахаляву — это, мягко говоря, дофига. Можно закрыть глаза и представить, как где-то там в далеком Сан-Франциско, разработчики Gemini Pro начинают искать себе новую работу сантехниками, электриками и ассенизаторами.Но вот прошла пара дней, и Царь оказался ненастоящий.
На сколько Ollama готова для Production?
Некоторое время назад я был в восторге от Ollama: простое скачивание моделей одной консольной командой, наличие SDK для NodeJS и Python, OpenAI-подобное API. Однако, так как отрасль рынка активно развивается, инструмент с каждым днем становится менее конкурентноспособнымПроблемы OllamaПункты ниже заставят вас задуматься рассмотреть другой инструмент запуска GGUF, например: LMStudio, LocalAI, KoboldCPP, vLLM или llama-server
Комплексное руководство по конфигурации сервера для LLM
Привет, Хабр! Развертывание языковой модели на собственном сервере требует тщательного планирования аппаратной составляющей. В этой статье мы разберем, какие компоненты критически важны для эффективной работы LLM, как они взаимодействуют, и какую конфигурацию выбрать под разные сценарии использования.
Телеграм-бот с ИИ Jlama: добавляем новые фичи
Привет Хабр! В прошлый раз мы сделали телеграм-бота с полноценным ИИ. Теперь мы продолжим добавлять новые интересные фичи нашему боту, но в этот раз мы начнем с конца и посмотрим на готовый результат, а потом разберем код и детали реализации.ДэмоПервое, что мы сделаем – это добавим небольшое меню с двумя опциями: выбор модели ИИ и отображение уже выбранной модели.
Отчёт о запуске DeepSeek-R1 на Xeon 6132 c 768 ГБ памяти
Спойлер для экономии времени читающих — я просто скачаю DeepSeek и запущу его через llama.cpp, на какую-либо научную новизну этот пост совершенно не претендует. Зачем это на хабре, если там всего одна команда? Просто в комментариях к посту «Мануал по запуску полной модели DeepSeek-R1 локально