«Кукбуки» и руководства по разработке LLM

Мы в MWS запустили ^[1] агрегатор язковых моделей, в котором можно работать с несколькими LLM через единый интерфейс. В MWS GPT доступны: собственные модели МТС, внешние модели, такие как DeepSeek, или модели самого заказчика. Через API эти модели легко подключить к любой корпоративной системе или чат-боту.

А ещё собрали материалы для разработчиков и дата-сайентистов, желающих прокачать навыки в сфере машинного обучения ^[2] и развития больших языковых моделей. Здесь вы найдете основное — от базовых руководств до научных справочников.

От разработчиков разработчикам

OpenCoder ^[3] представляет собой семейство открытых LLM, заточенных под написание кода. Авторы проекта — это компания-разработчик систем ИИ INF, а также исследовательское сообщество Multimodal Art Projection (M-A-P). Они выпустили OpenCoder, чтобы обогатить нишу опенсорсных моделей, способных работать с кодом и пригодных для проведения научных исследований.

Что интересно, разработчики передали в open source не только весовые коэффициенты и обучающие данные, но и пайплайн их обработки с результатами экспериментов. Эти процессы описаны ^[4] в научной работе.

Руководство охватывает все этапы проектирования LLM, включая сбор данных из GitHub и веб-архива Common Crawl для предварительного обучения, а также удаление из выборки материалов, защищенных авторским правом, и персональных данных. Отдельное внимание ^[5] разработчики уделили «балансировке» наборов данных за счет фильтрации кода на языках вроде Java и HTML.

Есть раздел и по обучению модели, включающий выбор архитектуры и методов оптимизации. Так, авторы обучали OpenCoder на наборе данных, включающем темы из теоретической информатики — алгоритмы, структуры данных и принципы работы сети. Только после этого модель тренировали на примерах кода с GitHub.

Предоставленный разработчиками «кукбук» подойдет для тех, кто экспериментирует с обучением моделей.

От студента для студентов

«LLM Cookbook» — руководство по разработке больших языковых моделей, которое развивает студент Бостонского университета. Информация систематизирована в репозитории на GitHub ^[6] и включает как наработки автора, так и инструкции с ресурсов вроде Hugging Face. Развёртывание LLM локально и в облаке, нюансы тонкой настройки, запуск в качестве RESTful-сервиса — для всего этого есть своя страничка с примерами кода. Можно найти как базовые инструкции, например, как настроить модель для обработки собственного набора данных, так и более продвинутые — про способы увеличить эффективность обучения LLM на одном графическом процессоре.

Автор начал наполнять репозиторий в этом году, поэтому многие темы не раскрыты до конца. В перспективе он планирует включить подразделы, посвящённые увеличению эффективности инференса для LLM, бенчмаркингу и добавить разбор практических кейсов. В целом автор открыт для сотрудничества с сообществом и приглашает поучаствовать в наполнении «кукбука» всех желающих.

Программирование LLM для разработчиков

В руководстве ^[7] «Hands on introduction to LLM programming for developers» автор разбирает основные концепции машинного обучения — что такое эмбеддинги, токены, температура, и приводит примеры настройки и использования LLM в различных задачах. Пособие написано простым языком, поэтому будет полезно тем, кто только погружается в тему машинного обучения.

«Кукбук» охватывает настройку среды разработки, использование API для запросов к LLM, проектирование и уточнение промптов, обработку выходных данных модели и интеграцию возможностей LLM в приложения. Также автор объясняет, как использовать фреймворк LangChain для написания кода и анализировать содержимое документов с помощью Retrieval Augmented Generation (RAG).

К руководству прилагается Python Notebook ^[8] с кодом, который лежит на GitHub.

«Кукбук» от Hugging Face

«Open-Source AI Cookbook» — руководство ^[9], опубликованное на Hugging Face, содержит инструкции по разработке LLM продвинутого уровня и будет полезно опытным специалистам. Кукбук охватывает различные сферы — в частности, обработку естественного языка, компьютерное зрение ^[10], а также содержит инструкции по развёртыванию моделей, оптимизации производительности и эффективному использованию наборов данных. Например, одна из инструкций посвящена анализу художественных стилей с применением мультимодальных эмбеддингов.

В то же время авторы «кукбука» предлагают ^[11] всем желающим поучаствовать в развитии проекта. Можно предложить идею для инструкции, прислать готовый ноутбук с практическим примером или улучшить существующие руководства.

Руководство для учёных

Руководство ^[12] будет полезно учёным, желающим использовать системы ИИ в своих исследованиях. Авторы «кукбука» — междисциплинарная команда NASA Impact ^[13], которая проектирует технологии для поддержки научных и прикладных разработок.

В подразделах руководства рассматриваются ответственное использование систем ИИ в науке ^[14], популярные LLM и их особенности, методы внедрения моделей в исследования, например, retrieval-augmented generation (RAG) и промпт-инжиниринг. Также в «кукбуке» можно найти примеры оптимизации исследовательских процессов с помощью LLM. Например, с помощью фреймворка LangChain авторы разработали ^[15] приложение для поиска данных научных исследований.

Генеративные возможности LLM (фреймворк)

Это руководство ^[16] для программной генерации шаблонов данных, которые позволяют улучшить возможности больших языковых моделей. Его авторы — учёные из Стэнфордского университета — стремились разработать решение для тонкой настройки моделей и избежать проблем, присущих наборам данных, сформированным вручную или с помощью LLM (в частности, связанных с персональными данными).

Исследователи подробно описали процесс разработки фреймворка, поэтому все желающие могут использовать его как ориентир для подготовки собственных обучающих датасетов. В основе фреймворка лежит формирование наборов данных в виде функций Python. Для повышения эффективности при решении нескольких задач фреймворк объединяет данные из разных наборов. Это делается с помощью оптимизационного алгоритма, который оценивает точность каждой модели применительно к последующим задачам.

Также авторы приводят примеры сводов для различных задач — ответов на вопросы, сопоставления сущностей и логических рассуждений модели. Кроме того, в руководстве показано, как автоматизировать разработку шаблонов с помощью GPT-4. Материал относительно новый. Тем не менее сами авторы отмечают, что тонкая настройка на данных, сгенерированных в рамках этого фреймворка, способна улучшить производительность LLM более чем на 52 пункта.

Автор: randall

Источник ^[17]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/13770

URLs in this post:

[1] запустили: https://mws.ru/services/mws-gpt/?utm_source=habr.com&utm_medium=owned_media_cookbookgpt&utm_content=article&utm_term=cookbookgpt

[2] обучения: http://www.braintools.ru/article/5125

[3] OpenCoder: https://opencoder-llm.github.io/

[4] описаны: https://arxiv.org/abs/2411.04905

[5] внимание: http://www.braintools.ru/article/7595

[6] репозитории на GitHub: https://github.com/Exorust/LLM-Cookbook/tree/main

[7] руководстве: https://code.mendhak.com/hands-on-llm-tutorial/

[8] прилагается Python Notebook: https://github.com/mendhak/notebook-llm-hands-on-tutorial/blob/master/tutorial.ipynb

[9] руководство: https://huggingface.co/learn/cookbook/index

[10] зрение: http://www.braintools.ru/article/6238

[11] предлагают: https://github.com/huggingface/cookbook/blob/main/README.md

[12] Руководство: https://github.com/NASA-IMPACT/LLM-cookbook-for-open-science

[13] NASA Impact: https://www.earthdata.nasa.gov/about/impact

[14] науке: http://www.braintools.ru/article/7634

[15] разработали: https://github.com/NASA-IMPACT/LLM-cookbook-for-open-science?tab=readme-ov-file#enhancing-data-discovery-with-langchain-earth-science--astrophysics-examples

[16] руководство: https://arxiv.org/pdf/2410.05224

[17] Источник: https://habr.com/ru/companies/mws/articles/896090/?utm_source=habrahabr&utm_medium=rss&utm_campaign=896090

Нажмите здесь для печати.