Всё про инференс на Sophon NPU
Easter Egg is incomingВ этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время.
Vision Transformer-применение трансформеров в задачах компьютерного зрения
Привет, чемпионы! Готов окунуться в мир Vision Transformer (ViT) и узнать, как трансформеры, изначально созданные для обработки текста, завоевали признание в компьютерном зрении? Тогда приступим!Данная работа полезна, если для вас "внимание-это все, что вам нужно" и вас интересует, как стали использовать трансформеры в других областях глубокого обучения.ВведениеСверточные нейронные сети (CNN) долгое время были основой компьютерного зрения, эффективно справляясь с задачами классификации и детекции объектов. Однако у них есть свои ограничения:Локальность обработки
Mask R-CNN 3D
1. Описание модели Mask R-CNN 3DMask R-CNN 3D – это расширение знаменитой модели Mask R-CNN для работы с трехмерными данными (объёмными изображениями или облаками точек). Классическая Mask R-CNN предназначена для instance segmentation (сегментации отдельных объектов) на 2D-изображениях и состоит из двух основных частей: (1) сети предложений областей (Region Proposal Network, RPN) и (2) головы (Head) с несколькими выходными ветвями для классификации, регрессии ограничивающих рамок и сегментации масок . В версии 3D эта же концепция перенесена в трехмерное пространство.
Мир будущего: управление устройствами с помощью жестов
Видели в кино, как устройствами управляют с помощью жестов? Сделать такую систему очень просто, а ещё очень дорого. Но всё-таки есть способ сделать её достаточно лёгкой и простой — настолько, чтобы можно было интегрировать в любое устройство с любым процессором, потратив минимальное количество денег.
Исследуем эволюцию архитектур в Computer Vision: Mind Map всех ключевых моделей
Сразу к карте? Если вы предпочитаете действовать, а не читать, вот ссылка на Mind Map . Она доступна для изучения прямо сейчас. А если хотите понять контекст и узнать больше о каждой модели — добро пожаловать под кат! Введение
Virtual Ads или как прорекламировать Adidas в CS:GO
Всем привет, меня зовут Евгений Мунин. Я Senior ML Engineer в Ad Tech в платформе ставок для рекламы и автор ТГ канала ML Advertising. В данной статье мы поговорим об одном из способов повышения узнаваемости брендов в спорте, а точнее виртуальной рекламе. Разберем размещение рекламных баннеров на видео и напишем пример на Python и OpenCV, где разместим логотип Adidas с использованием алгоритма детектирования ключевых точек SIFT и гомографии для искажения баннера под перспективу.Форматы рекламы в спортивных трансляциях
HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов
Жесты, представленные в датасете HaGRIDv2-1M. Новые жесты, добавленные к жестам из HaGRID, выделены краснымВ этой статье мы представляем HaGRIDv2-1M — обновлённую и значительно расширенную версию HaGRID, самого полного
От каскадных моделей до картинок в 4к: как эволюционировали диффузионки
На дворе 2025 год. Генерацией картинок и видео в интернете больше никого не удивишь. Генеративный контент повсюду, а его качество настолько высоко, что бывает трудно отличить синтетическую картинку от реальной.
3D Pose Estimation объектов фиксированной геометрии для складских роботов
«Позабыты хлопоты, остановлен бег. Вкалывают роботы, а не человек» — соблазн автоматизировать физический труд знаком нам ещё с «Приключений Электроника». И точно актуален на складах, особенно в период пиковой сезонности. И тогда на помощь приходят роботы, забирая на себя большую часть задач.
МРТ для DataScience. Часть 8
Продолжаем разбираться со особенностями МРТ-данных для обучения нейронных сетей. Содержание и первые части цикла статей здесь. 8. Некоторые подходы к препроцессингу и аугментации данных8.1. Выравнивание распределений и другие гистограммные методыВыравнивание распределений широко применяется при обработке обычных изображений. Однако для них используется единая шкала значений от 0 до 255. МРТ-данные имеют каждое свою шкалу, значения которых порой достигают десятков тысяч. Это сильно затрудняет применение стандартных методов.