Меня зовут Дмитрий, я дата-сайентист в команде моделирования Росгосстраха. Страховые компании активно обращаются к технологиям машинного обучения (ML) и искусственного интеллекта (ИИ) для формирования тарифов, борьбы с мошенничеством, оптимизации различных процессов и улучшения качества обслуживания клиентов. В этом обзоре я хочу рассказать о том, как ML/ИИ трансформирует процессы в страховом секторе. Посмотрим, как технологии интегрируются в повседневную работу крупной страховой компании на примере нескольких характерных задач.
Машинное обучение в страховой отрасли
Согласитесь, что практически все люди в своей жизни сталкиваются с потребностью в страховании. Кто-то хочет застраховать новую машину, кто-то стремится защитить квартиру от залива, а кто-то – иметь подушку безопасности в случае проблем со здоровьем. Ключевой особенностью большинства неприятных событий является их принципиальная случайность, неожиданность. Страховой бизнес – одна из старейших областей, которая использует статистику и анализ данных как основу для своей деятельности. Исторически, в контексте страховой практики, соответствующий раздел математики называли актуарными расчетами.

В повседневной жизни для большинства из нас страхование – это просто бумажный или электронный полис, который лежит на всякий случай. А тем временем, за кулисами корпораций, современное страхование – сложная область, охватывающая широкий спектр математических и технологических задач. Часть из них, такие как оценка риска или спроса клиентов – классические проблемы, для которых трансформируются подходы к решению, другая же часть – новые задачи, которые ранее невозможно было удовлетворительно решить в принципе (в эту группу, например, входят задачи автоматизации процессов). Так из чего же складывается моделирование в страховом деле?
Почему ваш страховой полис дороже, чем у соседа? Моделирование риска
Задумывались ли вы, почему у одного водителя полис каско стоит 60 тысяч рублей, а у другого 45 тысяч? Почему одним клиентам дают хорошую скидку на страхование, а другим, наоборот, повышающий коэффициент? Неужели дело только в щедрости и маркетинговой политике? Одна из непростых задач, которая всегда стояла перед страховщиками, – расчет вероятности наступления того или иного страхового события и оценка ожидаемой тяжести его последствий. Итоговая стоимость полиса непосредственно связана со степенью риска, присущей конкретному клиенту. Точность прогнозирования тут особенно важна, для того чтобы страховая компания смогла возместить ущерб всем страхователям.
На стоимость полиса влияет множество факторов, связанных с клиентом, объектом страхования и т.д. Например, большинству интуитивно понятно, что менее опытный молодой водитель в среднем склонен к большей аварийности, чем человек старшего возраста с большим стажем. При этом задача страховщика – количественно оценить влияние каждого такого фактора на степень риска. Последние несколько декад в качестве инструмента для решения этой задачи доминировали подходы, связанные с обобщенными линейными моделями (Generalized Linear Model, GLM). Эти модели представляют собой обобщение линейной регрессии с гауссово-распределенной ошибкой на более широкий класс процессов. Все дело в том, что частота наступления страховых событий и их тяжесть не описываются нормально-распределенными случайными величинами.

Разумеется, GLM сами по себе уже являются представителями моделей машинного обучения. Однако прогресс не стоит на месте, и страховые компании стремятся внедрять все более продвинутые методы в свои процессы.
За последние годы развитие машинного обучения дало множество инструментов, таких как градиентный бустинг над решающими деревьями (GBDT) и трансформеры (в том числе для работы с табличными данными, такие как FT-Transformer), которые Росгосстрах использует в различных сценариях. В то время как GLM имеет большие преимущества перед данными алгоритмами в аспекте интерпретируемости, обобщенным линейным моделям сложно учитывать нелинейности моделируемого процесса. Эти проблемы естественным путем решаются в GBDT и Tabular Transformers, что помогает достигать большей точности в определенных сценариях. Кроме того, эти и другие нейросетевые алгоритмы хорошо встраиваются в автоматизированные пайплайны и позволяют удобным образом обрабатывать модальности данных, которые может быть затруднительно учесть без использования глубокого обучения.
Пространственные данные «под капотом»
Представьте, что ваше место проживания может повлиять на стоимость полиса каско! В самом деле, одним из важных факторов в анализе риска является роль географической локации. Особенности населенных пунктов и районов, где проживает клиент, различные демографические показатели, структура дорог, маршрут клиента, наличие камер наблюдения и другие аналогичные параметры сильно влияют как на вероятность наступления страхового события, так и на размер ущерба. Такие данные, называемые пространственными (spatial), или же геоданными, являются характерным примером той самой нетривиальной модальности. Для работы с ними используем высокогранулированное деление карты России на зоны 100×100 метров – геосетку.

Каждому участку геосетки сопоставляются как классические, интуитивно понятные показатели, так и полученные с использованием моделей машинного обучения – векторные представления геоклеток. В частности, при решении такой задачи мы используем методы обучения без учителя из компьютерного зрения. Дальнейшее использование этих данных в моделях расчета риска позволяет сделать обоснованные выводы относительно аварийности и опасности геолокаций с большой детальностью, в том числе экстраполировать знания на малые города, в которых экспертное понимание может быть затруднено.
Выгода аккуратного водителя. Как страховая компания учитывает вашу историю
Если вы водите машину, старайтесь ездить аккуратно: это не только безопасно, но и выгодно. Ведь важным аспектом у любого страховщика является анализ страховой истории клиентов. Очевидно, что компания больше «доверяет» клиенту, который много лет не попадал в аварии. Традиционно для учета истории страховых случаев используется коэффициент бонус-малус (КБМ). В этой методике каждый водитель на основании своих убытков и количества безаварийных лет вождения «попадает» в один из классов, которому сопоставляется определенное число – КБМ. Данный показатель может служить хорошим признаком для аналитики и использоваться в различных моделях. Тем не менее, такое представление в виде единственного числа имеет свои ограничения. Мы в Росгосстрахе пошли дальше и анализируем всю историю вашего взаимодействия с компанией, используя информацию не только из полисов автострахования, но и принимая во внимание другие ваши страховки, например, квартиры.

Благодаря алгоритмам машинного обучения для обработки последовательностей событий учитывается вся совокупность различных продуктов, приобретенных клиентом, порядок их приобретения, убыточность по каждому полису, временные интервалы между событиями и так далее. В частности, нейросети позволяют на основании этих данных получить универсальные, легко переиспользуемые векторные представления для клиентов.
Как нейросети борются с преступниками. Антифрод модели в страховании
Одной из главных задач, стоящих перед страховой компанией, является выявление и предотвращение действий со стороны мошенников. Задумывались ли вы, что преступники приносят проблемы не только страховщику, но и вам – порядочным клиентам, и вы начинаете переплачивать? Мошенничество вызывает неконтролируемое кросс-субсидирование, – ситуацию, в которой недобросовестные покупатели попадают в одну тарифную группу с обычными, что может приводить к завышению цен для последних. Для борьбы со злоумышленниками используются антифрод модели, с помощью которых можно выявлять подозрительные случаи как на этапе оформления полисов, так и на основании анализа страховых случаев.

Росгосстрах использует графовые базы данных для хранения связей между клиентами и транспортными средствами, таких как, например, участие в одном расчете или ДТП. Конечно, анализ структур в таком графе зачастую затруднителен для человека в силу его размера и нетривиальности мошеннических схем. Тут нам на помощь приходят графовые модели машинного обучения, позволяющие в автоматизированном режиме находить сомнительные паттерны.
Ваше мнение учитывают? Как ИИ обрабатывает отзывы клиентов
Любая компания стремится становиться лучше, и важную роль в этом процессе играет, конечно же, обратная связь от клиентов. Сегодня большие языковые модели (LLM) позволяют анализировать, классифицировать, категоризировать и суммаризировать текстовые отзывы, а модели автоматического распознавания речи (ASR) используются для обработки аудиозаписей в контакт-центре, снижая время, затрачиваемое на эти процессы. ИИ помогает быстрее и точнее выявлять проблемы, с которыми столкнулись клиенты, определять их потребности и оперативно реагировать на запросы. Обработанные отклики используются коллегами и для аналитики, например, для расчета степени потребительской лояльности NPS (Net Promoter Score).
Скорость важна! Распознавание документов
В данный момент существует множество алгоритмов для решения задачи OCR (оптического распознавания символов), включая трансформерные модели. Они позволяют страховой компании автоматически распознавать данные паспортов, полисов и других документов, повышая точность ввода данных и помогая оптимизировать процессы.
Помимо обработки традиционного пакета документов есть и менее тривиальные сценарии использования. Допустим, заявку на покупку полиса подает клиент, у которого имеется длительная история взаимодействия с другим страховщиком. Логично предположить, что если иная страховая компания год за годом пролонгировала страховку, то клиент добропорядочный. Обычно для подтверждения подлинности полиса другой страховой компании нужно задействовать сотрудника отдела андеррайтинга. Обработка таких документов с помощью ИИ сэкономит его время и повысит скорость и эффективность принимаемых решений.
А фара цела? Детекция повреждений
Росгосстрах активно развивает сервисы распознавания повреждений по фотографиям. Модели компьютерного зрения (CV) решают задачу детекции повреждений на фотографиях осмотра, оценки их количества и степени тяжести, определения влияния состояния машины на риски клиента или более точной оценки необходимых резервов при страховом событии.

Будущее машинного обучения в страховании
В общем, страхование всегда шло рука об руку с машинным обучением, и есть понимание, что это движение продолжится. Уверен, что все текущие тренды ИИ, такие как новые поколения больших языковых моделей и диффузионных сетей, найдут свое применение в нашей индустрии.
К примеру, последние несколько месяцев горячей темой были различные LLM модели: выход высокопроизводительной сети от Deepseek без преуменьшения изменил ландшафт этой темы. У страховых компаний есть потребность в эффективных LLM / RAG системах как для взаимодействия с клиентами, так и для внутреннего пользования: агентам требуется помощник по внутренней документации, продуктам компании и информации по клиентам, другим же сотрудникам удобно иметь умных ассистентов, помогающих в общении, подготовке материалов или других рутинных задачах. Я думаю, что такие эффективные открытые модели, как Deepseek, позволят компаниям, не обладающим неограниченными ресурсами, оптимально решать эти задачи.
Перспективным направлением развития автострахования является телематика. Сейчас эта технология используется, например, в сервисах такси. Машинное обучение предоставляет способы для автоматизированной обработки информации о стиле движения, частоте и характере использования транспортного средства. Несмотря на то, что подавляющее большинство страхователей относятся в высшей степени осторожно к данной технологии, она позволила бы экономить средства обычным водителям. Здесь в голову приходит аналогия с изначальным недоверием в целом к технологиям ML, например, к системам видеонаблюдения, которые тем не менее позволили серьезно снизить уровень преступности.
Так или иначе, в условиях растущего объема и разнообразия данных, ИИ является ключевым инструментом для сохранения конкурентоспособности страховых компаний.
Автор: dmitry_eremeev