Квантизация
Автор статьи: Марк Блуменау - Сотрудник научно-исследовательских институтов ФИАН, ИЗМИРАН, ИФТТ, преподаватель Школы Высшей Математики
Важность времени на размышления: как работают вычисления во время инференса
Еще в 2020 году в статье о GPT-3 появился график, заслуживающий отдельного внимания: чем больше языковые модели, тем лучше они справляются с задачами без дообучения (zero-shot). Пять лет этот график был путеводной звездой для исследователей ИИ, влияя на всё — от архитектуры моделей до разработки железа. C выпуском o1 OpenAI пришел с новым графиком. На этот раз речь не только о размере — а о том, чтобы дать моделям время думать. Новый график показывает: увеличение вычислительных ресурсов на этапе вывода
Квантизация LLM: делаем модели легче в 4 раза
ВведениеСовременные языковые модели (LLM) содержат миллиарды параметров, что создает огромные требования к вычислительным ресурсам. Например:BERT: <1 млрд параметровGPT-2: >1 млрд параметровGPT-3: сотни млрд параметровDeepSeek: 671 млрд параметровТакие модели сложно запускать не только на домашних компьютерах, но даже на серверах среднего уровня. Квантизация - это метод уменьшения размера моделей для более эффективного использования памяти. Форматы хранения чисел в нейросетяхСтандартные форматы
Мама, у меня RAG: пути к улучшению, когда он «наивный»
В последние пару лет RAG (retrieval-augmented generation) стал одной из самых обсуждаемых технологий в области обработки текстов и поисковых систем. Его идея проста: объединить поиск (retrieval) и генерацию (generation), чтобы быстрее находить нужную информацию и создавать более точные тексты.
Так ли хороша DeepSeek-R1, как о ней говорят
Во всем AI-мире сейчас говорят о новой китайской языковой модели DeepSeek и, конечно, наша команда развития AI не могла пройти мимо этой темы. Мы сравнили ответы новой модели на реальные запросы к нашей базе знаний с ответами других популярных моделей. Что из этого получилось и какие выводы мы сделали расскажу я — Максим Михайлов, продуктовый менеджер Cloud.ru.
Как научить модель рассуждать, не переобучая её, меньше чем за 10$
ВведениеЭто статья обобщение моего исследования передачи знаний от большой модели с замороженными весами в малую модель, которую мы будем обучать через расширенный механизм кросс внимания или проще говоря через LLM модули. Оригинальное исследование доступно по ссылке: arxiv.org/abs/2502.08213 . Репозиторий с кодом и весами доступен на Hugging Face: LLM модули.
Хакатоны ML или битва за скор наяву
Добрый день, уважаемые читатели! Хакатоны уже давно стали неотъемлемой частью жизни любого топового разработчика, который хочет быть всегда в тренде и видеть самые «горячие» и актуальные задачи бизнеса. На них можно увидеть не только типовые задачи от бизнеса, которые уже имеют рабочие модели и аналитику в самом широком ключе, но требующие нестандартного и новаторского подхода в их расширении, но и задачи, открыто ставящие вызов разработчикам, и требующие самого широкого охвата знаний и упорства для их реализации.
Crew AI — один из самых популярных агентных фреймворков
Если ваш ИИ ещё не слал пассивно-агрессивные сообщения в Slack — вы не жили.Марк ТвенCrew AI — один из самых популярных агентных фреймворков искусственного интеллекта. Ранее я уже тестировал Autogen
Проблема контекстного окна: Почему AI забывает середину длинного текста
В недавнем интервью бывший генеральный директор Google Эрик Шмидт заявил, что контекстное окно больших языковых моделей (LLM) можно использовать как краткосрочную память. Однако есть проблема — если загрузить достаточно длинный текст (например, несколько книг) в контекстное окно, AI забудет середину.
LLM Llama 3 — небольшое погружение в детали
Привет Хабр! В этой статье я попробую немного разобрать код LLM Llama 3. Полностью проанализировать каждую строку кода не получится, но самые важные и базовые концепции мы все-таки разберем насколько это возможно.Падаем в кроличью норуИзучать мы будем класс Llama (файл generation.py) и его метод text_completion