Data Engineering. - страница 2

Карьера в Data Engineering: взгляд на образование и зарплату

Каждый день мы создаем колоссальные объемы данных: кликаем по рекламе, совершаем покупки, вызываем такси, смотрим видео. Компании накопили терабайты информации, но без правильной структуры и обработки она бесполезна. Именно инженеры данных отвечают за то, чтобы данные можно было эффективно хранить, обрабатывать и передавать аналитикам, машинному обучению и бизнесу.Data Engineering — профессия с будущимАналитики помогают бизнесу принимать решения на основе данных, и для этого крайне важна их правильная структура, обработка и передача. Без качественных данных аналитикам трудно делать точные прогнозы и рекомендации. 

Google представила Data Science Agent в Colab для упрощения анализа

Google выпустила обновление для Colab, которое позволит изменить способ анализа данных. Бесплатная облачная среда Jupyter Notebook теперь включает в себя Data Science Agent на базе Gemini, который автоматизирует такие задачи, как импорт библиотек, загрузка данных и написание шаблонного кода.

Обучение моделей timm. Связка с fastai

Привет Хабр! Решал задачу поиска оптимальной модели для классификации собственного датасета изображений (в основном искал на HuggingFace) и столкнулся с моделями timm. Старый конвейер dvc не работал с этими моделями и пришлось искать решение. Вообще почему именно timm? Как сказано в руководстве:«timm` - это библиотека глубокого обучения, созданная Россом Уайтманом, и представляет собой коллекцию моделей компьютерного зрения SOTA, слоев, утилит, оптимизаторов, планировщиков, загружающих данных, а также обучающих / валидационных скриптов с возможностью воспроизведения результатов обучения ImageNet.

Порядок работы с устареванием ML моделей. Шаг 2: Создание надежных и долговечных моделей

ВведениеЕще на этапе создания модели следует проделать работу, направленную на замедление ее устаревания.Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага:Шаг 1: Понимание устареванияШаг 2: Создание надежных и долговечных моделейШаг 3: Внедрение системы мониторингаШаг 4: Переобучение и поддержание актуальности моделиВ этой части мы с вами узнаем, как создать надежную и долговечную модель, а также получить много полезной информации, которая поможет нам бороться с устареванием в будущем.

Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных

Предварительная обработка текстовых данных: ключевые этапы и методыТекстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.

Методы построения RAG систем

Процесс Retrieval-Augmented Generation (RAG) представляет собой довольно сложную систему, состоящую из множества компонентов. Вопрос о том, как определить существующие методы RAG и их оптимальные комбинации для выявления лучших практик, в настоящий момент остается наиболее актуальным. В этой статье я хочу поделиться своим опытом относительно реализации подходов и практик в области RAG систем, который реализует систематический подход к решению этой проблемы.Типовые задачи процессов RAG системКлассификация запросов,Деление на фрагментыВекторизация данныхПоиск,Переранжирование,

Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики

Фото Яни Каасинен на Unsplash.

Применение технологии RAG при построении интегрированных систем для цифровых продуктов: детальный разбор

В 2024 году популярными словами и постоянной темой для обсуждения в IT были большие языковые модели (LLM), обработка естественного языка (NLP), искусственный интеллект и создание ценностей. Однако вкатиться в эту экосистему без подготовки может быть довольно сложно. Давайте начнём с того, что рассмотрим понятие генерации с дополненной выборкой (Retrieval Augmented Generation, RAG), чтобы лучше понять эту технологию и возможность её использования в наших цифровых продуктах.

10 бесплатных онлайн-курсов и занятий, которые стоит пройти в феврале

Что изучать в феврале? 🧑🎓 Мы собрали бесплатные курсы и лекции для тех, кто рассматривает возможность смены профессии. Тем, кто стремится быстрее окунуться в профессию, предлагаем онлайн-занятия. А тем, кто настроен на глубокое погружение в мир цифровых специалистов, подойдут наши онлайн-курсы.Системный аналитик: первые шаги к профессииКогда: 3 февраля — 12 февраля

AI в энтерпрайзе

Мнение.Основные проблемы в корпоративном IT это, как и прежде: инфраструктура, безопасность и работа с данными.AI и, так называемые, Агенты AI, в этой сфере, в ближайшие 2-3 года, мало что поменяют.В корпоративном секторе столько неэффективности и реакционности, что буст продуктивности, который принесет AI станет каплей в море.Миграция с Oracle на Postgresql или переезд с Lotus Domino, для большинства крупных не-IT компаний принесет больше пользы, чем внедрение AI, здесь и сейчас.Без современной инфраструктуры и стека данных, внедрение AI не отобьет OPEX и тем более CAPEX.

Рейтинг@Mail.ru
Rambler's Top100