Обновленный курс Natural Language Processing
Сообщество Open Data Science и компания MWS AI в партнерстве с МФТИ и ИТМО вновь запускают бесплатный курс по обработке естественного языка. Стартуем 16 сентября – подробности и регистрация. Всем привет! 16 сентября я в очередной раз
Перевод датасета для оценки эмпатии на русский язык: подход, проблемы, результаты
Привет. Меня зовут Нафиса Валиева. Я младший разработчик в MWS AI и Пситехлабе, студентка 3го курса ПМ-ПУ СПбГУ. Этот пост — текстовый вариант моего выступления на Дата Фесте. Я расскажу вам, как мы в команде Пситехлаб переводили интересный датасет с английского на русский с помощью больших языковых моделей (далее - БЯМ). Сам подход основан на ранней работе нашего руководителя. Отличие в том, что здесь мы детально анализируем поведение различных БЯМ. Зачем это вообще и что за датасет такой
Создание Системы генерации ответов на истории тикетов поддержки (часть 2)
Привет, Хабр!Меня зовут Анатолий, занимаюсь автоматизацией бизнес-процессов и применением Искусственного Интеллекта в бизнесе. Кейсовая задача - создать Систему генерации ответов на основе существующей истории тикетов. При этом Система должна работать в закрытом контуре.Это вторая часть.В первой части был рассмотрен подход Question-Answering с timpal0l/mdeberta-v3-base-squad2 (модификация BERT для задач Question-Answering) - модели, умеющей "читать" текст и "вытаскивать" ответы.В этой части переходим к семантическому поиску, контекстному сходству и SentenceTransformer. SentenceTransformer
Just AI запускает Agent Platform — первую в России enterprise-платформу для разработки и управления AI-агентами
Agent Platform – первая в России единая платформа enterprise-уровня (chat-, voice-, workflow-) для создания, управления и масштабирования решений на базе автономных AI-агентов и запуска мультиагентных систем. Agent Platform предлагает уникальное no-/low-code решение, позволяющее создавать как простых агентов для рутинных задач внутри департаментов, так и сложные мультиагентные системы, охватывающие всю компанию.
Как мы научили LLM отвечать на вопросы абитуриентов в крупнейшем вузе страны
Поступление в университет — это всегда стресс. Абитуриенты и их родители засыпают приёмные комиссии тысячами одинаковых вопросов: какие проходные баллы, как правильно заполнить заявление, что делать в случае ошибки. Летом нагрузка достигает пика: телефоны и почта разрываются, а сотрудники комиссии работают фактически в режиме «колл-центра».
Где поток ненужного софта? Почему заявления об ИИ-ассистентах не сходятся
Я в бешенстве. Я реально зол. Зол настолько, что хочется сносить чужие песочные замки, зарядить Дэниэлю ЛаРуссо по физиономии и поливать его грязью перед его девушкойa.Вообще-то я не из тех, кого легко разозлить, но ситуация в индустрии достала окончательно.Я разбираюсь в разработке софта. Занимаюсь этим 25 лет1
Fine-tune Qwen3 Embeddings для классификации категорий товаров
Мы взяли размеченный корпус товаров из Web Data Commons, дообучили Qwen3 Embedding с помощью LoRA и получили лёгкий чекпойнт на ~615M параметров, который сопоставляет «сырые» названия товаров с 6 верхнеуровневыми категориями с результатом macro-F1 = 0.836, может работать в реальном времени на одной видеокарте. Код доступен в гитхабе так же английская версия этого поста. Почему именно Web Data Commons и зачем это e-commerce
Большие языковые модели как новый уровень абстрагирования
Как и большинство серьёзных спикеров в IT, я внимательно слежу за тем, какую роль могут сыграть в разработке ПО системы генеративного искусственного интеллекта. Думаю, возникновение больших языковых моделей (LLM) повлияет на разработку ПО примерно в той же степени, что и переход с ассемблера на первые высокоуровневые языки программирования. Чем дальше развиваются языки и фреймворки, тем сильнее абстрагируется наш код и, соответственно, возрастает продуктивность, но такие изменения пока не касаются самой природы
Создание Системы генерации ответов на истории тикетов поддержки (часть 1)
Привет, Хабр!Меня зовут Анатолий, занимаюсь автоматизацией бизнес-процессов и применением Искусственного Интеллекта в бизнесе.Кейсовая задача - создать Систему генерации ответов на основе существующей истории тикетов. При этом Система должна работать в закрытом контуре.Общий ходДатасет, поиск релевантного тикета, генерация ответаПодготовка данныхИсходные данные представляли собой большой CSV-файл, полученный как экспорт истории тикетов поддержки, по нескольким филиалам, на нескольких языках.

