Генерация синтетических данных для LLM, или Как не «выстрелить» в ногу продакшену. Часть 1
Доброго вам дня, уважаемые Хабражители! В связи с бурным ростом LLM и просто невероятным, прорывными результатами практически ошеломительного качества, всё острее мы погружаемся в вопросы о дальнейшем развитии: «Куда двигаться дальше с точки зрения данных? Где их брать? Какого качества они должны быть? Как их бесшовно встроить в общую канву текущего конвейера? Сколько их вообще надо генерировать?» Всё это порождает массу тревог, размышлений и проводимых тестов. Поскольку мы уже вплотную подошли к тому, что данных начинает не хватать
Apple будет анализировать данные на устройствах для улучшения обучения ИИ
Apple опубликовала статью, посвящённую новому подходу в обучении Apple Intelligence. Если ранее компания использовала синтетические данные для обучения ИИ, то теперь она начнёт применять аналитику от пользователей.
Алгоритмы поиска аномалий HBOS и ECOD
Привет, Хабр! Меня зовут Михаил Васильев, я старший специалист по машинному обучению в компании Makves (входит в группу компаний «Гарда»). По работе мне часто приходится заниматься поиском аномалий в данных, однако я заметил, что в русскоязычном интернете этой задаче посвящено очень мало материалов. В частности, я не нашел хорошего разбора различных алгоритмов поиска аномалий, где были бы описаны их плюсы и минусы.В статье хочу частично исправить этот недочет и разобрать алгоритмы HBOS и ECOD, а также обсудить особенности их реализации в популярной библиотеке PyOD.Рассмотрим:
Игра в имитацию: используем Python для генерации синтетических данных для ML и не только
ВведениеРучной сбор данных — это всегда боль. Он съедает время, деньги и нервы, особенно в таких областях, как медицина или финансы, где затраты могут быть космическими, а юридические барьеры — непреодолимыми. По
Разметка данных с использованием LLM
Всем привет! Меня зовут Артем Ерохин. Я работаю в X5 Tech в направлении продуктивизации ИИ. В прошлом году у меня был доклад про разметку данных с LLM. И я решил преобразовать этот доклад в статью, попутно обновив некоторые цифры и тезисы (такова уж скорость прогресса в этой области). Но для начала позволю себе несколько вводных для тех, кто всё же не слышал про разметку данных и LLM (Large Language Models или большие языковые модели). Что же такое LLM?Итак, LLM – это:Модель.
Как собирать данные: руководство для ИИ-стартапов
В 2016 году я наткнулся на руководство по стратегиям сбора данных для AI-стартапов, многие идеи из которого были визионерскими для своего времени. Автором этого текста был Мориц Мюллер-Фрайтаг, сооснователь компании Twenty Billion Neurons (TwentyBN).
Генерация табличных данных с помощью языковых моделей: делаем правильно
В мире анализа данных и машинного обучения качественные табулированные данные играют ключевую роль. Однако далеко не всегда у специалистов есть доступ к реальным данным из-за конфиденциальности, отсутствия информации или необходимости тестирования алгоритмов перед их применением в реальных сценариях. В таких случаях на помощь приходят языковые модели, способные генерировать структурированные таблицы с синтетическими данными.
Маск заявил, что объём доступных знаний для обучения ИИ исчерпан
Илон Маск заявил, что для обучения моделей искусственного интеллекта осталось мало реальных данных. Ранее подобную точку зрения высказывал бывший главный научный сотрудник OpenAI Илья Суцкевер.«Мы уже практически исчерпали совокупный объём человеческих знаний, подходящих для обучения ИИ. Это произошло в прошлом году», — цитирует Маска TechCrunch. В декабре Илья Суцкевер на NeurIPS отметил, что индустрия ИИ достигла «пика использования данных», и предсказал, что нехватка данных для обучения заставит компании отойти от привычного формата разработки моделей.
GAN и диффузионные модели: как научить нейросеть рисовать
Привет! Сегодня хочу поговорить о двух очень горячих темах в области искусственного интеллекта — генеративно‑состязательные сети (GAN) и диффузионные модели (типа Stable Diffusion). Я сама как‑то подсела на все эти AI‑картинки и поняла, что нужно срочно поделиться тем что накопала. Поехали!:‑)GAN: Генератор vs. Дискриминатор
Законы масштабирования – архитектура O1 Pro — Инфраструктура синтетических данных, RLAIF, токеномика вычислений
С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ