Квантизация
Автор статьи: Марк Блуменау - Сотрудник научно-исследовательских институтов ФИАН, ИЗМИРАН, ИФТТ, преподаватель Школы Высшей Математики
Квантизация LLM: делаем модели легче в 4 раза
ВведениеСовременные языковые модели (LLM) содержат миллиарды параметров, что создает огромные требования к вычислительным ресурсам. Например:BERT: <1 млрд параметровGPT-2: >1 млрд параметровGPT-3: сотни млрд параметровDeepSeek: 671 млрд параметровТакие модели сложно запускать не только на домашних компьютерах, но даже на серверах среднего уровня. Квантизация - это метод уменьшения размера моделей для более эффективного использования памяти. Форматы хранения чисел в нейросетяхСтандартные форматы