- BrainTools - https://www.braintools.ru -
Мы регулярно публикуем подборки литературы для специалистов: делали дайджест книг для желающих поближе познакомиться с Postgres [1] и Kubernetes [2]. Сегодня на очереди справочники и пособия по машинному обучению [3], которые можно найти в открытом доступе. Эти материалы помогут погрузиться в ML, разобраться в базовых математических концепциях, понять тренды опенсорсных технологий для систем ИИ и перейти к работе с ML-платформой [4].
Целевая аудитория книги [5] — ML-инженеры, разработчики и другие специалисты, желающие понять тренды в сфере машинного обучения. Материал написан командой из компании Prem, предоставляющей услуги по обучению ML-моделей. Организация участвует в жизни open source комьюнити и недавно представила [6] LLM широкого назначения Prem-1B. Поэтому неудивительно, что книга State of Open Source AI также распространяется по открытым лицензиям: CC-BY-4.0 (текст) и Apache-2.0 (код).
Справочник включает анализ моделей LLaMA, Stable Diffusion и DALL-E, а также знакомит с инструментами вроде ONNX для хранения и обработки нейросетей, а также TensorRT — SDK для глубокого обучения. Отдельные главы посвящены обсуждению этических вопросов лицензирования и использования интеллектуальных технологий.
Каждый раздел начинается с краткого обзора в формате TL;DR, после которого авторы углубляются в детали — например, приводят примеры данных для обучения моделей. В книге есть глоссарий, позволяющий найти определения терминов и инструментов. Погружение в темы достаточно глубокое, и, по словам авторов, для лучшего усвоения материала у читателя должны быть хотя бы базовые знания в сфере MLOps.
Автор книги — Уэс МакКинни, разработчик библиотеки pandas для обработки и анализа данных. Пособие ориентировано на специалистов, желающих разобраться в возможностях языка Python для аналитики. Автор рассказывает об инструменте визуализации Matplotlib, а также о том, как читать, очищать и преобразовывать массивы данных с помощью библиотек NumPy и pandas.
Наибольший интерес [7] представляет третье издание «Python и анализ данных», которое было опубликовано в 2022 году издательством O’Reilly. Автор актуализировал материал и привел его в соответствие с версиями pandas 2.0.0 и Python 3.10.
Пособие похоже на онлайн-документацию по библиотекам. Читатели рекомендуют держать книгу в качестве настольного руководства, чтобы обращаться к нему по мере необходимости. Делать это несложно, учитывая, что материал доступен [8] бесплатно на сайте Уэса МакКинни (еще есть официальный русский перевод [9]). А все примеры кода выложены на GitHub [10] и Gitee [11] вместе с необходимыми датасетами.
Дата-инженер и гроссмейстер Kaggle Абхишек Тхакур выпустил это руководство в 2020 году. Оно пригодится специалистам, желающим попрактиковаться в решении задач машинного обучения. Книга начинается с установки Python и настройки окружения. Но автор быстро переходит к углубленному разбору тем вроде контролируемого и неконтролируемого обучения, кросс-валидации и метрик оценки моделей.
Отдельные разделы посвящены организации проектов машинного обучения и работе с различными типами данных, включая категориальные переменные. Во второй части книги автор разбирает конкретные типы задач, такие как классификация изображений, текстов и методы ансамблирования. По сути, книга реализована по модели «учись, пока пишешь код». Иными словами, чтобы получить максимальную пользу от прочтения, стоит воспроизводить примеры и стараться применять их на практике.
Полная версия руководства доступна [12] на GitHub. Если вам понравится стиль и подача автора, можете обратить внимание [13] на его YouTube-канал [14], где выходят ролики про работу с нейросетями и ML-моделями — например, BARK, Stable Diffusion, Llama 2.
Пособие будет полезно студентам, начинающим разработчикам и всем, кто хочет освоить или повторить ключевые математические концепции, необходимые в ML. Руководство состоит из двух разделов. Первый посвящен линейной алгебре, аналитической геометрии, матрицам, векторному исчислению, статистике, а второй — линейной регрессии, методу главных компонент, гауссову моделированию.
В прошлом году книгу «Математика в машинном обучении» уже упоминали на Хабре. Участники обсуждения отметили [15], что книга хорошо структурирована и помогает разобраться в базовой математике [16], необходимой для ML. Однако некоторым пособие показалось излишне сложным.
Руководство переведено на русский язык. Однако автор обзора на портале Proglib подчеркнул, что русская версия содержит много ошибок в формулах и опечаток, поэтому лучше сверяться с оригиналом. Издание на английском языке доступно [17] бесплатно. Разбор решений и список литературы есть на GitHub [18].
Эта книга посвящена метаобучению [19] — ML-подходу, направленному на разработку моделей, которые могут быстро адаптироваться к новым задачам или условиям при минимальном количестве данных. Идея заключается в том, чтобы обучить модель хорошо справляться сразу с несколькими задачами.
Пособие ориентировано на исследователей и практиков. Оно охватывает практически все аспекты метаобучения и автоматического машинного обучения (AutoML), начиная с основных концепций и архитектурных принципов подхода. Отдельная глава посвящена методологиям оценки и обработки наборов данных, после чего рассмотрены методы оптимизации гиперпараметров и методы ансамблей.
Большое внимание авторы уделяют взаимосвязи между метаобучением и AutoML и показывают, как совместное применение этих подходов позволяет автоматизировать ML-пайплайн.
Впервые руководство вышло в 2009, но было переиздано в 2022-м. И это самое второе издание можно скачать [20] бесплатно на английском языке.
Это — руководство [21] по разработке ПО на базе систем машинного обучения. Его автор — Кристиан Кестнер, доцент факультета компьютерных наук Университета Карнеги — Меллона. Он написал книгу на основе своего курса по ML в программировании.
Учебник охватывает весь жизненный цикл разработки продукта — от требований и проектирования до проверки качества и ввода в эксплуатацию. Книги рассказывает о проблемах развертывания систем на базе машинного обучения и как грамотно соединять ML-компоненты с «классическими» составляющими программных продуктов. Отдельные главы посвящены качеству данных, моделей и конвейеров, а также построению работы дата-инженеров и управлению техническим долгом.
Наконец, Кестнер обсуждает этику в ML-инженерии, безопасность и прозрачность систем — то, без чего сложно представить полноценную работу в этой нише.
Пока что книга только готовится к публикации, которая намечена на апрель 2025 года. Однако руководство можно прочитать уже сейчас — электронная версия выложена на GitHub [22]. Также к нему прилагаются учебные материалы: слайды, видео, задания и обширный список [23] дополнительной литературы.
Больше литературных подборок в нашем блоге на Хабре:
Автор: randall
Источник [25]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/11094
URLs in this post:
[1] Postgres: https://habr.com/ru/companies/mws/articles/747078/
[2] Kubernetes: https://habr.com/ru/companies/mws/articles/750560/
[3] обучению: http://www.braintools.ru/article/5125
[4] ML-платформой: https://mws.ru/services/ml-platform/?utm_source=habr.com&utm_medium=owned_media_mlplatformbooks&utm_content=article&utm_term=mlplatformbooks
[5] книги: https://book.premai.io/state-of-open-source-ai/index.html
[6] представила: https://blog.premai.io/introducing-prem-1b/
[7] интерес: http://www.braintools.ru/article/4220
[8] доступен: https://wesmckinney.com/book/
[9] официальный русский перевод: https://www.litres.ru/book/ues-makkinni-10688670/python-i-analiz-dannyh-22805830/
[10] GitHub: https://github.com/wesm/pydata-book/tree/3rd-edition
[11] Gitee: https://gitee.com/wesmckinn/pydata-book
[12] доступна: https://github.com/abhishekkrthakur/approachingalmost/blob/master/AAAMLP.pdf
[13] внимание: http://www.braintools.ru/article/7595
[14] YouTube-канал: https://www.youtube.com/@abhishekkrthakur
[15] отметили: https://habr.com/ru/companies/piter/articles/757616/#comment_26305026
[16] математике: http://www.braintools.ru/article/7620
[17] доступно: https://course.ccs.neu.edu/ds4420sp20/readings/mml-book.pdf
[18] на GitHub: https://mml-book.github.io/
[19] метаобучению: https://en.wikipedia.org/wiki/Meta-learning_(computer_science)
[20] можно скачать: https://link.springer.com/book/10.1007/978-3-030-67024-5
[21] руководство: https://mitpress.mit.edu/9780262049726/machine-learning-in-production/
[22] выложена на GitHub: https://mlip-cmu.github.io/book/
[23] список: https://github.com/ckaestne/seaibib
[24] Проблемы открытых знаний и открытая облачная литература: https://habr.com/ru/companies/mws/articles/851338/
[25] Источник: https://habr.com/ru/companies/mws/articles/872230/?utm_source=habrahabr&utm_medium=rss&utm_campaign=872230
Нажмите здесь для печати.