Знакомьтесь, HIGGS — новый метод сжатия LLM от исследователей из Яндекса и ведущих научно-технологических вузов

Исследователи из Yandex Research, НИУ ВШЭ, MIT, KAUST и ISTA разработали новый метод HIGGS для сжатия больших языковых моделей. Его особенность — высокая производительность даже на слабых устройствах без существенной потери качества. Например, это первый метод квантизации, с помощью которого удалось сжать DeepSeek R1 размером 671 млрд параметров без значительного ухудшения модели.

Метод позволяет быстро тестировать и внедрять новые решения на основе нейросетей, экономить время и деньги на разработку. Это делает LLM доступнее не только для крупных, но и для небольших компаний, некоммерческих лабораторий и институтов, индивидуальных разработчиков и исследователей.

Метод уже доступен на Hugging Face ^[1] и GitHub ^[2]. Научную статью про него можно прочитать на arXiv ^[3]. Ну а более простое описание — под катом этой новости.

Какую проблему решает новый метод

Сложность в использовании больших языковых моделей заключается в том, что они требуют значительных вычислительных ресурсов. Это касается и опенсорс-моделей. Например, одна из них — популярная DeepSeek R1 — не помещается даже на дорогостоящих серверах. Это означает, что использовать большие модели может только ограниченный круг компаний, даже если сама модель находится в открытом доступе.

Новый метод позволяет уменьшить размер модели и запустить её на более доступных устройствах. C помощью этого метода можно сжимать даже такие большие модели, как DeepSeek R1 на 671 млрд параметров и Llama 4 Maverick на 400 млрд параметров, которые до сих пор удавалось квантовать только самыми простыми методами со значительной потерей в качестве.

Новый способ квантизации даёт больше возможностей для использования LLM в различных областях, особенно в тех, где ресурсы ограничены.

Чуть подробнее о новом методе

Новый метод квантизации называется HIGGS (от англ. Hadamard Incoherence with Gaussian MSE-optimal GridS). Вместо дорогостоящей процедуры подбора квантованных весов, HIGGS преобразует нейросеть в особый формат, в котором веса можно округлять без использования дополнительных данных. Это особенно полезно в ситуациях, когда недостаточно подходящих данных для дообучения модели или сама модель слишком велика для дообучения.

Метод уже проверили на популярных моделях Llama 3, Llama 4 и Qwen2.5. Эксперименты показали, что HIGGS — это лучший способ квантизации по соотношению качества к размеру модели среди всех существующих методов квантизации без использования данных, в том числе GPTQ (GPT Quantization) и AWQ (Activation-Aware Quantization) в важном для применения диапазоне в 2–4 бит на параметр нейросети.

Научную статью ^[3], в которой описан новый метод, приняли на одну из крупнейших в мире конференций по искусственному интеллекту ^[4] — NAACL (The North American Chapter of the Association for Computational Linguistics). Она пройдёт с 29 апреля по 4 мая 2025 года в Альбукерке, Нью-Мексико, США. Наряду с Яндексом в ней будут участвовать такие компании и вузы, как Google, Microsoft Research, Гарвардский университет и другие. Статью уже цитировали американская компания Red Hat AI, Пекинский университет, Гонконгский университет науки и технологии, Фуданьский университет и другие.

Вместо заключения

Метод HIGGS обеспечивает баланс между качеством, размером модели и сложностью квантизации, что позволяет использовать модели на самых разных устройствах. Мы в Яндексе уже применяем новый метод для прототипирования — создания рабочих версий продуктов и быстрой проверки идей: сжатые модели проходят тестирование быстрее, чем их исходные версии.

HIGGS — далеко не первая работа наших исследователей в области квантизации: команда Yandex Research опубликовала уже более 12 статей на эту тему. Например, ранее мы уже рассказывали о методе AQML c PV-Tuning в отдельной статье ^[5]. А ещё вы могли видеть демонстрацию этого метода на примере пет-проекта ^[6] для запуска моделей в браузере.

Мы стремимся сделать применение моделей более эффективным, менее энергозатратным и доступным для всех разработчиков и исследователей.

Автор: BarakAdama

Источник ^[7]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/14127

URLs in this post:

[1] Hugging Face: https://huggingface.co/docs/transformers/main/en/quantization/higgs

[2] GitHub: https://github.com/HanGuo97/flute

[3] arXiv: https://arxiv.org/pdf/2411.17525

[4] интеллекту: http://www.braintools.ru/article/7605

[5] статье: https://habr.com/ru/companies/yandex/articles/830410/

[6] пет-проекта: https://habr.com/ru/companies/yandex/articles/864296/

[7] Источник: https://habr.com/ru/companies/yandex/news/899816/?utm_source=habrahabr&utm_medium=rss&utm_campaign=899816

Нажмите здесь для печати.