
Мы в MWS запустили агрегатор язковых моделей, в котором можно работать с несколькими LLM через единый интерфейс. В MWS GPT доступны: собственные модели МТС, внешние модели, такие как DeepSeek, или модели самого заказчика. Через API эти модели легко подключить к любой корпоративной системе или чат-боту.
А ещё собрали материалы для разработчиков и дата-сайентистов, желающих прокачать навыки в сфере машинного обучения и развития больших языковых моделей. Здесь вы найдете основное — от базовых руководств до научных справочников.
От разработчиков разработчикам
OpenCoder представляет собой семейство открытых LLM, заточенных под написание кода. Авторы проекта — это компания-разработчик систем ИИ INF, а также исследовательское сообщество Multimodal Art Projection (M-A-P). Они выпустили OpenCoder, чтобы обогатить нишу опенсорсных моделей, способных работать с кодом и пригодных для проведения научных исследований.
Что интересно, разработчики передали в open source не только весовые коэффициенты и обучающие данные, но и пайплайн их обработки с результатами экспериментов. Эти процессы описаны в научной работе.
Руководство охватывает все этапы проектирования LLM, включая сбор данных из GitHub и веб-архива Common Crawl для предварительного обучения, а также удаление из выборки материалов, защищенных авторским правом, и персональных данных. Отдельное внимание разработчики уделили «балансировке» наборов данных за счет фильтрации кода на языках вроде Java и HTML.
Есть раздел и по обучению модели, включающий выбор архитектуры и методов оптимизации. Так, авторы обучали OpenCoder на наборе данных, включающем темы из теоретической информатики — алгоритмы, структуры данных и принципы работы сети. Только после этого модель тренировали на примерах кода с GitHub.
Предоставленный разработчиками «кукбук» подойдет для тех, кто экспериментирует с обучением моделей.
От студента для студентов
«LLM Cookbook» — руководство по разработке больших языковых моделей, которое развивает студент Бостонского университета. Информация систематизирована в репозитории на GitHub и включает как наработки автора, так и инструкции с ресурсов вроде Hugging Face. Развёртывание LLM локально и в облаке, нюансы тонкой настройки, запуск в качестве RESTful-сервиса — для всего этого есть своя страничка с примерами кода. Можно найти как базовые инструкции, например, как настроить модель для обработки собственного набора данных, так и более продвинутые — про способы увеличить эффективность обучения LLM на одном графическом процессоре.
Автор начал наполнять репозиторий в этом году, поэтому многие темы не раскрыты до конца. В перспективе он планирует включить подразделы, посвящённые увеличению эффективности инференса для LLM, бенчмаркингу и добавить разбор практических кейсов. В целом автор открыт для сотрудничества с сообществом и приглашает поучаствовать в наполнении «кукбука» всех желающих.
Программирование LLM для разработчиков
В руководстве «Hands on introduction to LLM programming for developers» автор разбирает основные концепции машинного обучения — что такое эмбеддинги, токены, температура, и приводит примеры настройки и использования LLM в различных задачах. Пособие написано простым языком, поэтому будет полезно тем, кто только погружается в тему машинного обучения.
«Кукбук» охватывает настройку среды разработки, использование API для запросов к LLM, проектирование и уточнение промптов, обработку выходных данных модели и интеграцию возможностей LLM в приложения. Также автор объясняет, как использовать фреймворк LangChain для написания кода и анализировать содержимое документов с помощью Retrieval Augmented Generation (RAG).
К руководству прилагается Python Notebook с кодом, который лежит на GitHub.
«Кукбук» от Hugging Face
«Open-Source AI Cookbook» — руководство, опубликованное на Hugging Face, содержит инструкции по разработке LLM продвинутого уровня и будет полезно опытным специалистам. Кукбук охватывает различные сферы — в частности, обработку естественного языка, компьютерное зрение, а также содержит инструкции по развёртыванию моделей, оптимизации производительности и эффективному использованию наборов данных. Например, одна из инструкций посвящена анализу художественных стилей с применением мультимодальных эмбеддингов.
В то же время авторы «кукбука» предлагают всем желающим поучаствовать в развитии проекта. Можно предложить идею для инструкции, прислать готовый ноутбук с практическим примером или улучшить существующие руководства.
Руководство для учёных
Руководство будет полезно учёным, желающим использовать системы ИИ в своих исследованиях. Авторы «кукбука» — междисциплинарная команда NASA Impact, которая проектирует технологии для поддержки научных и прикладных разработок.
В подразделах руководства рассматриваются ответственное использование систем ИИ в науке, популярные LLM и их особенности, методы внедрения моделей в исследования, например, retrieval-augmented generation (RAG) и промпт-инжиниринг. Также в «кукбуке» можно найти примеры оптимизации исследовательских процессов с помощью LLM. Например, с помощью фреймворка LangChain авторы разработали приложение для поиска данных научных исследований.
Генеративные возможности LLM (фреймворк)
Это руководство для программной генерации шаблонов данных, которые позволяют улучшить возможности больших языковых моделей. Его авторы — учёные из Стэнфордского университета — стремились разработать решение для тонкой настройки моделей и избежать проблем, присущих наборам данных, сформированным вручную или с помощью LLM (в частности, связанных с персональными данными).
Исследователи подробно описали процесс разработки фреймворка, поэтому все желающие могут использовать его как ориентир для подготовки собственных обучающих датасетов. В основе фреймворка лежит формирование наборов данных в виде функций Python. Для повышения эффективности при решении нескольких задач фреймворк объединяет данные из разных наборов. Это делается с помощью оптимизационного алгоритма, который оценивает точность каждой модели применительно к последующим задачам.
Также авторы приводят примеры сводов для различных задач — ответов на вопросы, сопоставления сущностей и логических рассуждений модели. Кроме того, в руководстве показано, как автоматизировать разработку шаблонов с помощью GPT-4. Материал относительно новый. Тем не менее сами авторы отмечают, что тонкая настройка на данных, сгенерированных в рамках этого фреймворка, способна улучшить производительность LLM более чем на 52 пункта.
Автор: randall