Квантование моделей: запуск новейших моделей Google на локальном оборудовании. gemma 3.. gemma 3. google.. gemma 3. google. Блог компании BotHub.. gemma 3. google. Блог компании BotHub. ИИ.. gemma 3. google. Блог компании BotHub. ИИ. ии и машинное обучение.. gemma 3. google. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект.. gemma 3. google. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. квантование.. gemma 3. google. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. квантование. Машинное обучение.. gemma 3. google. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. квантование. Машинное обучение. память.. gemma 3. google. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. квантование. Машинное обучение. память. производительность.

Обучение с учётом квантования позволяет запускать новейшие модели Google на локальных графических процессорах и даже на мобильных устройствах.

Gemma-3-27b-it-qat-q4_0-gguf звучит как пароль от Wi-Fi, но это самый компактный LLM от Google

Благодаря специализированному подходу к обучению эти новые варианты Gemma 3 теперь могут эффективно работать на потребительском оборудовании — например, на игровых графических процессорах или даже на мобильных устройствах — без существенной потери качества. Для сравнения, оригинальные модели Gemma 3 были созданы для высокопроизводительных систем с использованием NVIDIA H100 и точностью BFloat16, что делало их недоступными для обычных пользователей.

Ключом к этому сдвигу является квантование — процесс, который значительно сокращает использование памяти. Обе модели и их контрольные точки теперь доступны на Hugging Face и Kaggle.

Квантование означает хранение весовых коэффициентов и значений активации с меньшим количеством бит — часто 8, 4 или даже всего 2 — вместо обычных 16 или 32. Это позволяет создавать более компактные модели, которые работают быстрее, поскольку числа с меньшей точностью быстрее перемещаются и обрабатываются.

В Gemma 3 Google применяет обучение с учётом квантования (QAT) — метод, который вводит условия пониженной точности во время обучения. Моделируя с самого начала меньшую разрядность, модель учится адаптироваться к этим ограничениям, сводя к минимуму обычное снижение производительности при работе с пониженной точностью.

Экономия памяти существенная. Например, модель 27B сокращает объём видеопамяти с 54 ГБ до 14,1 ГБ в формате int4. Вариант 12B сокращает объём с 24 ГБ до 6,6 ГБ. Даже более компактные модели выигрывают: версия 4B занимает 2,6 ГБ, а модели 1B требуется всего 0,5 ГБ.

Гистограмма: требования к VRAM для разных размеров моделей Gemma 3, сравнение необработанных (bf16) и квантованных (int4) версий. — Квантование моделей Gemma приводит к значительному снижению требований к VRAM. Например, в то время как необработанной модели 27B требуется 54 ГБ, квантованная версия работает всего на 14,1 ГБ, а производительность, по словам Google, остаётся сопоставимой благодаря обучению с учётом квантования.

Google утверждает, что благодаря QAT модели «устойчивы к квантованию» — условию, которое обычно приводит к некоторой потере качества модели. Однако компания не опубликовала обновлённые результаты тестов, подтверждающие это утверждение.

Модели совместимы с распространёнными механизмами логического вывода для интеграции в существующие рабочие процессы. Встроенная поддержка доступна для Ollama, LM Studio и MLX (для Apple Silicon) и других. Такие инструменты, как llama.cpp и gemma.cpp, также поддерживают квантованные модели Gemma в формате GGUF.

Источник

Автор: mefdayy

Источник