- BrainTools - https://www.braintools.ru -
Исследователи из Yandex Research, НИУ ВШЭ, MIT, KAUST и ISTA разработали новый метод HIGGS для сжатия больших языковых моделей. Его особенность — высокая производительность даже на слабых устройствах без существенной потери качества. Например, это первый метод квантизации, с помощью которого удалось сжать DeepSeek R1 размером 671 млрд параметров без значительного ухудшения модели.
Метод позволяет быстро тестировать и внедрять новые решения на основе нейросетей, экономить время и деньги на разработку. Это делает LLM доступнее не только для крупных, но и для небольших компаний, некоммерческих лабораторий и институтов, индивидуальных разработчиков и исследователей.
Метод уже доступен на Hugging Face [1] и GitHub [2]. Научную статью про него можно прочитать на arXiv [3]. Ну а более простое описание — под катом этой новости.
Сложность в использовании больших языковых моделей заключается в том, что они требуют значительных вычислительных ресурсов. Это касается и опенсорс-моделей. Например, одна из них — популярная DeepSeek R1 — не помещается даже на дорогостоящих серверах. Это означает, что использовать большие модели может только ограниченный круг компаний, даже если сама модель находится в открытом доступе.
Новый метод позволяет уменьшить размер модели и запустить её на более доступных устройствах. C помощью этого метода можно сжимать даже такие большие модели, как DeepSeek R1 на 671 млрд параметров и Llama 4 Maverick на 400 млрд параметров, которые до сих пор удавалось квантовать только самыми простыми методами со значительной потерей в качестве.
Новый способ квантизации даёт больше возможностей для использования LLM в различных областях, особенно в тех, где ресурсы ограничены.
Новый метод квантизации называется HIGGS (от англ. Hadamard Incoherence with Gaussian MSE-optimal GridS). Вместо дорогостоящей процедуры подбора квантованных весов, HIGGS преобразует нейросеть в особый формат, в котором веса можно округлять без использования дополнительных данных. Это особенно полезно в ситуациях, когда недостаточно подходящих данных для дообучения модели или сама модель слишком велика для дообучения.
Метод уже проверили на популярных моделях Llama 3, Llama 4 и Qwen2.5. Эксперименты показали, что HIGGS — это лучший способ квантизации по соотношению качества к размеру модели среди всех существующих методов квантизации без использования данных, в том числе GPTQ (GPT Quantization) и AWQ (Activation-Aware Quantization) в важном для применения диапазоне в 2–4 бит на параметр нейросети.
Научную статью [3], в которой описан новый метод, приняли на одну из крупнейших в мире конференций по искусственному интеллекту [4] — NAACL (The North American Chapter of the Association for Computational Linguistics). Она пройдёт с 29 апреля по 4 мая 2025 года в Альбукерке, Нью-Мексико, США. Наряду с Яндексом в ней будут участвовать такие компании и вузы, как Google, Microsoft Research, Гарвардский университет и другие. Статью уже цитировали американская компания Red Hat AI, Пекинский университет, Гонконгский университет науки и технологии, Фуданьский университет и другие.
Метод HIGGS обеспечивает баланс между качеством, размером модели и сложностью квантизации, что позволяет использовать модели на самых разных устройствах. Мы в Яндексе уже применяем новый метод для прототипирования — создания рабочих версий продуктов и быстрой проверки идей: сжатые модели проходят тестирование быстрее, чем их исходные версии.
HIGGS — далеко не первая работа наших исследователей в области квантизации: команда Yandex Research опубликовала уже более 12 статей на эту тему. Например, ранее мы уже рассказывали о методе AQML c PV-Tuning в отдельной статье [5]. А ещё вы могли видеть демонстрацию этого метода на примере пет-проекта [6] для запуска моделей в браузере.
Мы стремимся сделать применение моделей более эффективным, менее энергозатратным и доступным для всех разработчиков и исследователей.
Автор: BarakAdama
Источник [7]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/14127
URLs in this post:
[1] Hugging Face: https://huggingface.co/docs/transformers/main/en/quantization/higgs
[2] GitHub: https://github.com/HanGuo97/flute
[3] arXiv: https://arxiv.org/pdf/2411.17525
[4] интеллекту: http://www.braintools.ru/article/7605
[5] статье: https://habr.com/ru/companies/yandex/articles/830410/
[6] пет-проекта: https://habr.com/ru/companies/yandex/articles/864296/
[7] Источник: https://habr.com/ru/companies/yandex/news/899816/?utm_source=habrahabr&utm_medium=rss&utm_campaign=899816
Нажмите здесь для печати.