Карьера в Data Engineering: взгляд на образование и зарплату
Каждый день мы создаем колоссальные объемы данных: кликаем по рекламе, совершаем покупки, вызываем такси, смотрим видео. Компании накопили терабайты информации, но без правильной структуры и обработки она бесполезна. Именно инженеры данных отвечают за то, чтобы данные можно было эффективно хранить, обрабатывать и передавать аналитикам, машинному обучению и бизнесу.Data Engineering — профессия с будущимАналитики помогают бизнесу принимать решения на основе данных, и для этого крайне важна их правильная структура, обработка и передача. Без качественных данных аналитикам трудно делать точные прогнозы и рекомендации.
Google представила Data Science Agent в Colab для упрощения анализа
Google выпустила обновление для Colab, которое позволит изменить способ анализа данных. Бесплатная облачная среда Jupyter Notebook теперь включает в себя Data Science Agent на базе Gemini, который автоматизирует такие задачи, как импорт библиотек, загрузка данных и написание шаблонного кода.
Обучение моделей timm. Связка с fastai
Привет Хабр! Решал задачу поиска оптимальной модели для классификации собственного датасета изображений (в основном искал на HuggingFace) и столкнулся с моделями timm. Старый конвейер dvc не работал с этими моделями и пришлось искать решение. Вообще почему именно timm? Как сказано в руководстве:«timm` - это библиотека глубокого обучения, созданная Россом Уайтманом, и представляет собой коллекцию моделей компьютерного зрения SOTA, слоев, утилит, оптимизаторов, планировщиков, загружающих данных, а также обучающих / валидационных скриптов с возможностью воспроизведения результатов обучения ImageNet.
Порядок работы с устареванием ML моделей. Шаг 2: Создание надежных и долговечных моделей
ВведениеЕще на этапе создания модели следует проделать работу, направленную на замедление ее устаревания.Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага:Шаг 1: Понимание устареванияШаг 2: Создание надежных и долговечных моделейШаг 3: Внедрение системы мониторингаШаг 4: Переобучение и поддержание актуальности моделиВ этой части мы с вами узнаем, как создать надежную и долговечную модель, а также получить много полезной информации, которая поможет нам бороться с устареванием в будущем.
Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных
Предварительная обработка текстовых данных: ключевые этапы и методыТекстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.
Методы построения RAG систем
Процесс Retrieval-Augmented Generation (RAG) представляет собой довольно сложную систему, состоящую из множества компонентов. Вопрос о том, как определить существующие методы RAG и их оптимальные комбинации для выявления лучших практик, в настоящий момент остается наиболее актуальным. В этой статье я хочу поделиться своим опытом относительно реализации подходов и практик в области RAG систем, который реализует систематический подход к решению этой проблемы.Типовые задачи процессов RAG системКлассификация запросов,Деление на фрагментыВекторизация данныхПоиск,Переранжирование,
Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики
Фото Яни Каасинен на Unsplash.
Применение технологии RAG при построении интегрированных систем для цифровых продуктов: детальный разбор
В 2024 году популярными словами и постоянной темой для обсуждения в IT были большие языковые модели (LLM), обработка естественного языка (NLP), искусственный интеллект и создание ценностей. Однако вкатиться в эту экосистему без подготовки может быть довольно сложно. Давайте начнём с того, что рассмотрим понятие генерации с дополненной выборкой (Retrieval Augmented Generation, RAG), чтобы лучше понять эту технологию и возможность её использования в наших цифровых продуктах.
10 бесплатных онлайн-курсов и занятий, которые стоит пройти в феврале
Что изучать в феврале?
Мы собрали бесплатные курсы и лекции для тех, кто рассматривает возможность смены профессии. Тем, кто стремится быстрее окунуться в профессию, предлагаем онлайн-занятия. А тем, кто настроен на глубокое погружение в мир цифровых специалистов, подойдут наши онлайн-курсы.Системный аналитик: первые шаги к профессииКогда: 3 февраля — 12 февраля