Знакомьтесь, HIGGS — новый метод сжатия LLM от исследователей из Яндекса и ведущих научно-технологических вузов. HIGGS.. HIGGS. llm.. HIGGS. llm. Open source.. HIGGS. llm. Open source. yandex research.. HIGGS. llm. Open source. yandex research. Блог компании Яндекс.. HIGGS. llm. Open source. yandex research. Блог компании Яндекс. Исследования и прогнозы в IT.. HIGGS. llm. Open source. yandex research. Блог компании Яндекс. Исследования и прогнозы в IT. квантизация.. HIGGS. llm. Open source. yandex research. Блог компании Яндекс. Исследования и прогнозы в IT. квантизация. Машинное обучение.. HIGGS. llm. Open source. yandex research. Блог компании Яндекс. Исследования и прогнозы в IT. квантизация. Машинное обучение. Сжатие данных.. HIGGS. llm. Open source. yandex research. Блог компании Яндекс. Исследования и прогнозы в IT. квантизация. Машинное обучение. Сжатие данных. яндекс.

Исследователи из Yandex Research, НИУ ВШЭ, MIT, KAUST и ISTA разработали новый метод HIGGS для сжатия больших языковых моделей. Его особенность — высокая производительность даже на слабых устройствах без существенной потери качества. Например, это первый метод квантизации, с помощью которого удалось сжать DeepSeek R1 размером 671 млрд параметров без значительного ухудшения модели.

Метод позволяет быстро тестировать и внедрять новые решения на основе нейросетей, экономить время и деньги на разработку. Это делает LLM доступнее не только для крупных, но и для небольших компаний, некоммерческих лабораторий и институтов, индивидуальных разработчиков и исследователей.

Метод уже доступен на Hugging Face и GitHub. Научную статью про него можно прочитать на arXiv. Ну а более простое описание — под катом этой новости. 

Какую проблему решает новый метод

Сложность в использовании больших языковых моделей заключается в том, что они требуют значительных вычислительных ресурсов. Это касается и опенсорс-моделей. Например, одна из них — популярная DeepSeek R1 — не помещается даже на дорогостоящих серверах. Это означает, что использовать большие модели может только ограниченный круг компаний, даже если сама модель находится в открытом доступе.

Новый метод позволяет уменьшить размер модели и запустить её на более доступных устройствах. C помощью этого метода можно сжимать даже такие большие модели, как DeepSeek R1 на 671 млрд параметров и Llama 4 Maverick на 400 млрд параметров, которые до сих пор удавалось квантовать только самыми простыми методами со значительной потерей в качестве.

Новый способ квантизации даёт больше возможностей для использования LLM в различных областях, особенно в тех, где ресурсы ограничены.

Чуть подробнее о новом методе

Новый метод квантизации называется HIGGS (от англ. Hadamard Incoherence with Gaussian MSE-optimal GridS). Вместо дорогостоящей процедуры подбора квантованных весов, HIGGS преобразует нейросеть в особый формат, в котором веса можно округлять без использования дополнительных данных. Это особенно полезно в ситуациях, когда недостаточно подходящих данных для дообучения модели или сама модель слишком велика для дообучения.

Метод уже проверили на популярных моделях Llama 3, Llama 4 и Qwen2.5. Эксперименты показали, что HIGGS — это лучший способ квантизации по соотношению качества к размеру модели среди всех существующих методов квантизации без использования данных, в том числе GPTQ (GPT Quantization) и AWQ (Activation-Aware Quantization) в важном для применения диапазоне в 2–4 бит на параметр нейросети. 

Научную статью, в которой описан новый метод, приняли на одну из крупнейших в мире конференций по искусственному интеллекту — NAACL (The North American Chapter of the Association for Computational Linguistics). Она пройдёт с 29 апреля по 4 мая 2025 года в Альбукерке, Нью-Мексико, США. Наряду с Яндексом в ней будут участвовать такие компании и вузы, как Google, Microsoft Research, Гарвардский университет и другие. Статью уже цитировали американская компания Red Hat AI, Пекинский университет, Гонконгский университет науки и технологии, Фуданьский университет и другие.

Вместо заключения

Метод HIGGS обеспечивает баланс между качеством, размером модели и сложностью квантизации, что позволяет использовать модели на самых разных устройствах. Мы в Яндексе уже применяем новый метод для прототипирования — создания рабочих версий продуктов и быстрой проверки идей: сжатые модели проходят тестирование быстрее, чем их исходные версии.

HIGGS — далеко не первая работа наших исследователей в области квантизации: команда Yandex Research опубликовала уже более 12 статей на эту тему. Например, ранее мы уже рассказывали о методе AQML c PV-Tuning в отдельной статье. А ещё вы могли видеть демонстрацию этого метода на примере пет-проекта для запуска моделей в браузере. 

Мы стремимся сделать применение моделей более эффективным, менее энергозатратным и доступным для всех разработчиков и исследователей.

Автор: BarakAdama

Источник

Рейтинг@Mail.ru
Rambler's Top100