PyTorch.

Кастомные loss-функции в TensorFlow-Keras и PyTorch

Привет, Хабр!Стандартные loss‑функции, такие как MSE или CrossEntropy, хороши, но часто им не хватает гибкости для сложных задач. Допустим, есть тот же проект с огромным дисбалансом классов, или хочется внедрить специфическую регуляризацию прямо в функцию потерь. Стандартный функционал тут бессилен — тут на помощь приходят кастомные loss'ы.Custom Loss Functions в TensorFlow/KerasTensorFlow/Keras радуют удобным API, но за простоту приходится платить вниманием к деталям. Focal LossFocal Loss помогает сместить фокус обучения на сложные примеры, снижая влияние легко классифицируемых данных:

продолжить чтение ......

Оставлено в

Пишем свой Transformer

Захотелось более детально разобраться и попробовать самостоятельно написать Transformer на PyTorch, а результатом поделиться здесь. Надеюсь, так же как и мне, это поможет ответить на какие-то вопросы в данной архитектуре. Оставляю ссылку на свой канал: not_magic_neural_networks0 IntroВпервые архитектуру трансформер предложили использовать в 2017 году в статье Google

продолжить чтение ......

Оставлено в
- attention
- PyTorch

Десять уроков развития аппаратных ускорителей для ИИ: как эволюция TPU привела к созданию TPUv4i

В последние годы стало очевидно, что классические центральные процессоры (CPU) и видеокарты (GPU) уже не всегда поспевают за непрерывным ростом и усложнением нейронных сетей. Вместо бесконечного наращивания «универсального» железа, компании начали разрабатывать и внедрять в своих дата-центрах Domain-Specific Architecture (DSA) — аппаратные ускорители, заточенные под конкретные задачи.Google TPU (Tensor Processing Unit) — одно из первых крупных решений такого рода. Начиная с 2015 года (поколение TPUv1), Google успела вывести на рынок несколько поколений TPU для внутренних нужд: TPUv1 и TPUv2/v3, а в 2020 году — новое решение TPUv4i

продолжить чтение ......

Оставлено в

Airsim умер, да здравствует GRID

Проблема, с которой часто встречаются разработчики, в том числе и компании, заключается в обучении дронов и роботов. До недавнего времени эту проблему позволяла решить Aerial Informatics and Robotics Platform (AirSim), и данная статья

продолжить чтение ......

Оставлено в

Обучить модель RoBERTa расстановке запятых на балконе для продакшена

RoBERTa — улучшенная версия модели BERT, разработанная Facebook AI. Она показывает отличные результаты в задачах обработки естественного языка, таких как классификация текстов и генерация ответов.

продолжить чтение ......

Оставлено в

Рынок труда ML-специалистов в 2025 году: востребованные навыки и карьерные треки

В одном из недавних интервью Марк Цукерберг заявил

продолжить чтение ......

Оставлено в

Оптимизация Trellis: запускаем генерацию 3D моделей на GPU с 8ГБ памяти

Привет, Хабр! Я оптимизировал Trellis — мощный AI-инструмент для генерации 3D моделей из изображений, и хочу поделиться тем, как удалось снизить требования к видеопамяти с 16GB до 8GB, сохранив качество генерации.Что такое Trellis и почему это важноTrellis — модель для генерации 3D-ассетов, разработанная Microsoft Research, способная создавать трёхмерные объекты из изображений. Её ключевая особенность — универсальный Structured LATent (SLAT) формат, за счет которого можно генерировать различные выходные форматы: от Radiance Fields и 3D Gaussians до полноценных мешей.

продолжить чтение ......

Оставлено в

Анализ обработки признаков в YOLO NAS S при помощи CAM

Методы объяснения моделей — практичный инструмент для понимания модели, оценки её точности и стабильности. Однако, часто можно столкнуться с ситуацией, когда фреймворк, в котором метод реализован, просто не "дружит" с реализацией модели. В этом туториале хочу подробно показать CAM (class activation map) для объяснения моделей зрения. Почему CAM?Class Activation Maps (CAM) — базовый инструмент для визуализации того, какие области изображения наиболее важны для модели при принятии решения. Он позволяет понять:Какие признаки извлекает модель на разных слоях свертки;

продолжить чтение ......

Оставлено в

GAN и диффузионные модели: как научить нейросеть рисовать

Привет! Сегодня хочу поговорить о двух очень горячих темах в области искусственного интеллекта — генеративно‑состязательные сети (GAN) и диффузионные модели (типа Stable Diffusion). Я сама как‑то подсела на все эти AI‑картинки и поняла, что нужно срочно поделиться тем что накопала. Поехали!:‑)GAN: Генератор vs. Дискриминатор

продолжить чтение ......

Оставлено в

Пишем свой PyTorch на NumPy. Финал. Запускаем GPT-2

PyTorch — это мощный и гибкий фреймворк для машинного обучения, широко используемый для создания нейронных сетей. Он особенно популярен благодаря простоте использования, динамическим вычислительным графам и богатой экосистеме инструментов для обучения моделей. Для использования этого фреймворка, часто достаточно поверхностно понимать работу алгоритмов машинного обучения.

продолжить чтение ......

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

PyTorch.

Кастомные loss-функции в TensorFlow-Keras и PyTorch

Пишем свой Transformer

Десять уроков развития аппаратных ускорителей для ИИ: как эволюция TPU привела к созданию TPUv4i

Airsim умер, да здравствует GRID

Обучить модель RoBERTa расстановке запятых на балконе для продакшена

Рынок труда ML-специалистов в 2025 году: востребованные навыки и карьерные треки

Оптимизация Trellis: запускаем генерацию 3D моделей на GPU с 8ГБ памяти

Анализ обработки признаков в YOLO NAS S при помощи CAM

GAN и диффузионные модели: как научить нейросеть рисовать

Пишем свой PyTorch на NumPy. Финал. Запускаем GPT-2

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

PyTorch.