Открытые книги по ML и работе с данными. ml.. ml. Open source.. ml. Open source. Блог компании MWS.. ml. Open source. Блог компании MWS. Блог компании МТС.. ml. Open source. Блог компании MWS. Блог компании МТС. ИИ.. ml. Open source. Блог компании MWS. Блог компании МТС. ИИ. книги.. ml. Open source. Блог компании MWS. Блог компании МТС. ИИ. книги. Машинное обучение.. ml. Open source. Блог компании MWS. Блог компании МТС. ИИ. книги. Машинное обучение. Профессиональная литература.
Открытые книги по ML и работе с данными - 1

Мы регулярно публикуем подборки литературы для специалистов: делали дайджест книг для желающих поближе познакомиться с Postgres и Kubernetes. Сегодня на очереди справочники и пособия по машинному обучению, которые можно найти в открытом доступе. Эти материалы помогут погрузиться в ML, разобраться в базовых математических концепциях, понять тренды опенсорсных технологий для систем ИИ и перейти к работе с ML-платформой.

«State of Open Source AI»

Целевая аудитория книги — ML-инженеры, разработчики и другие специалисты, желающие понять тренды в сфере машинного обучения. Материал написан командой из компании Prem, предоставляющей услуги по обучению ML-моделей. Организация участвует в жизни open source комьюнити и недавно представила LLM широкого назначения Prem-1B. Поэтому неудивительно, что книга State of Open Source AI также распространяется по открытым лицензиям: CC-BY-4.0 (текст) и Apache-2.0 (код).

Справочник включает анализ моделей LLaMA, Stable Diffusion и DALL-E, а также знакомит с инструментами вроде ONNX для хранения и обработки нейросетей, а также TensorRT — SDK для глубокого обучения. Отдельные главы посвящены обсуждению этических вопросов лицензирования и использования интеллектуальных технологий.

Каждый раздел начинается с краткого обзора в формате TL;DR, после которого авторы углубляются в детали — например, приводят примеры данных для обучения моделей. В книге есть глоссарий, позволяющий найти определения терминов и инструментов. Погружение в темы достаточно глубокое, и, по словам авторов, для лучшего усвоения материала у читателя должны быть хотя бы базовые знания в сфере MLOps.

«Python и анализ данных»

Автор книги — Уэс МакКинни, разработчик библиотеки pandas для обработки и анализа данных. Пособие ориентировано на специалистов, желающих разобраться в возможностях языка Python для аналитики. Автор рассказывает об инструменте визуализации Matplotlib, а также о том, как читать, очищать и преобразовывать массивы данных с помощью библиотек NumPy и pandas.

Наибольший интерес представляет третье издание «Python и анализ данных», которое было опубликовано в 2022 году издательством O’Reilly. Автор актуализировал материал и привел его в соответствие с версиями pandas 2.0.0 и Python 3.10.

Пособие похоже на онлайн-документацию по библиотекам. Читатели рекомендуют держать книгу в качестве настольного руководства, чтобы обращаться к нему по мере необходимости. Делать это несложно, учитывая, что материал доступен бесплатно на сайте Уэса МакКинни (еще есть официальный русский перевод). А все примеры кода выложены на GitHub и Gitee вместе с необходимыми датасетами.

«Approaching (Almost) Any Machine Learning Problem»

Дата-инженер и гроссмейстер Kaggle Абхишек Тхакур выпустил это руководство в 2020 году. Оно пригодится специалистам, желающим попрактиковаться в решении задач машинного обучения. Книга начинается с установки Python и настройки окружения. Но автор быстро переходит к углубленному разбору тем вроде контролируемого и неконтролируемого обучения, кросс-валидации и метрик оценки моделей.

Отдельные разделы посвящены организации проектов машинного обучения и работе с различными типами данных, включая категориальные переменные. Во второй части книги автор разбирает конкретные типы задач, такие как классификация изображений, текстов и методы ансамблирования. По сути, книга реализована по модели «учись, пока пишешь код». Иными словами, чтобы получить максимальную пользу от прочтения, стоит воспроизводить примеры и стараться применять их на практике.

Полная версия руководства доступна на GitHub. Если вам понравится стиль и подача автора, можете обратить внимание на его YouTube-канал, где выходят ролики про работу с нейросетями и ML-моделями — например, BARK, Stable Diffusion, Llama 2.

«Математика в машинном обучении»

Пособие будет полезно студентам, начинающим разработчикам и всем, кто хочет освоить или повторить ключевые математические концепции, необходимые в ML. Руководство состоит из двух разделов. Первый посвящен линейной алгебре, аналитической геометрии, матрицам, векторному исчислению, статистике, а второй — линейной регрессии, методу главных компонент, гауссову моделированию.

В прошлом году книгу «Математика в машинном обучении» уже упоминали на Хабре. Участники обсуждения отметили, что книга хорошо структурирована и помогает разобраться в базовой математике, необходимой для ML. Однако некоторым пособие показалось излишне сложным. 

Руководство переведено на русский язык. Однако автор обзора на портале Proglib подчеркнул, что русская версия содержит много ошибок в формулах и опечаток, поэтому лучше сверяться с оригиналом. Издание на английском языке доступно бесплатно. Разбор решений и список литературы есть на GitHub.

«Metalearning: Applications to Automated Machine Learning and Data Mining»

Эта книга посвящена метаобучению — ML-подходу, направленному на разработку моделей, которые могут быстро адаптироваться к новым задачам или условиям при минимальном количестве данных. Идея заключается в том, чтобы обучить модель хорошо справляться сразу с несколькими задачами.

Пособие ориентировано на исследователей и практиков. Оно охватывает практически все аспекты метаобучения и автоматического машинного обучения (AutoML), начиная с основных концепций и архитектурных принципов подхода. Отдельная глава посвящена методологиям оценки и обработки наборов данных, после чего рассмотрены методы оптимизации гиперпараметров и методы ансамблей.

Большое внимание авторы уделяют взаимосвязи между метаобучением и AutoML и показывают, как совместное применение этих подходов позволяет автоматизировать ML-пайплайн.

Впервые руководство вышло в 2009, но было переиздано в 2022-м. И это самое второе издание можно скачать бесплатно на английском языке.

«Machine Learning in Production: From Models to Products»

Это — руководство по разработке ПО на базе систем машинного обучения. Его автор — Кристиан Кестнер, доцент факультета компьютерных наук Университета Карнеги — Меллона. Он написал книгу на основе своего курса по ML в программировании.

Учебник охватывает весь жизненный цикл разработки продукта — от требований и проектирования до проверки качества и ввода в эксплуатацию. Книги рассказывает о проблемах развертывания систем на базе машинного обучения и как грамотно соединять ML-компоненты с «классическими» составляющими программных продуктов. Отдельные главы посвящены качеству данных, моделей и конвейеров, а также построению работы дата-инженеров и управлению техническим долгом.

Наконец, Кестнер обсуждает этику в ML-инженерии, безопасность и прозрачность систем — то, без чего сложно представить полноценную работу в этой нише.

Пока что книга только готовится к публикации, которая намечена на апрель 2025 года. Однако руководство можно прочитать уже сейчас — электронная версия выложена на GitHub. Также к нему прилагаются учебные материалы: слайды, видео, задания и обширный список дополнительной литературы.

Больше литературных подборок в нашем блоге на Хабре:

Автор: randall

Источник

Rambler's Top100