BioNNE-L — соревнование по нормализации биомедицинских именованных сущностей на русском и английском языках. Biomedical NLP.. Biomedical NLP. Entity linking.. Biomedical NLP. Entity linking. nlp.. Biomedical NLP. Entity linking. nlp. nlp обработка текста.. Biomedical NLP. Entity linking. nlp. nlp обработка текста. извлечение информации.. Biomedical NLP. Entity linking. nlp. nlp обработка текста. извлечение информации. соревнование.

Я — Андрей Саховский, исследователь SberAI и аспирант Сколтеха. Занимаюсь биомедицинским NLP, интересуюсь графами знаний, задачами извлечения информации из текстов медицинской тематики, языковыми моделями в хемоинформатике. Если вам тоже интересны эти научные области, обратите внимание на соревнование BioNNE‑L, которое организует наша команда исследователей из AIRI, МГУ и SberAI и которому будет посвящён этот текст.

BioNNE-L — соревнование по нормализации биомедицинских именованных сущностей на русском и английском языках - 1

О чём пойдёт речь?

Извлечение информации из текстов биомедицинской тематики, будь то клинические записи, тексты научных статей или же посты в социальных сетях, — это критический компонент для создания точных медицинских моделей. Одной из важнейших задач в этой области является нормализация биомедицинских сущностей (также известная как entity linking, линкинг сущностей), которая заключается в сопоставлении упоминаний сущностей в текстах с уникальными идентификаторами концепций из крупных баз знаний, например UMLS (Unified Medical Language System). Проще говоря, по упоминанию термина требуется установить, к какому именно словарному понятию он относится.

Однако при работе с русскоязычными текстами возникает ряд сложностей, связанных с неполнотой баз знаний для малоресурсных языков (каковым является и русский), а также с вариативностью наименований одного и того же понятия в зависимости от контекста и типа документа (научная статья, врачебное заключение или отзыв о лекарстве в социальных сетях).

Эта задача имеет большое значение, в частности для:

  • Автоматизации анализа медицинских записей.

  • Улучшения качества поиска информации в научных публикациях.

  • Поддержки принятия решений в клинической практике.

  • Улучшения качества работы больших языковых моделей (LLM) за счет использования баз знаний в подходе retrieval‑augmented generation (RAG).

В этом посте расскажу про BioNNE‑L — нашем новом соревновании по нормализации биомедицинских именованных сущностей на русском и английском языках. Оно проводится силами доктора компьютерных наук Тутубалиной Елены Викторовны (AIRI), доктора технических наук Лукашевич Натальи Валентины (МГУ), а также моими, аспирантскими.

BioNNE‑L — часть воркшопа BioASQ 2025, организуемого международной группой экпертов во главе с учёными из греческого исследовательского центра «Demokritos». Воркшоп пройдёт в сентябре 2025 года в Испании на конференции CLEF 2025. В прошлом году мои коллеги проводили схожее соревнование, но по задаче распознавания именованных сущностей (named entity recognition, NER) — BioNNE 2024 [1], в этом году логичным шагом стал переход к задаче линкинга.

Особенности нашего соревнования — ориентированность на вложенные сущности и на борьбу с неполнотой терминологии. Под последним понимается ситуация, когда сущности, не представлены в словаре на целевом низкоресурсном языке, но представлены в словаре более высокоресурсного языка.

Пример набора вложенных сущностей — ниже.

BioNNE-L — соревнование по нормализации биомедицинских именованных сущностей на русском и английском языках - 2

Сверху на рисунке — словарные понятия с указанными в скобках их уникальными идентификаторами в базе знаний. В нижней части рисунка две сущности вложены в сущность «высокочувствительного С‑реактивного белка», и требуется найти наилучшее словарное понятие (концепт) для всех трёх сущностей.

Без контекста дли́нной сущности вложенная сущность «белка» может быть ошибочно распознана как пушной зверь, поскольку точно совпадает с одним из его словарных наименований. А правильно нормализовав сущность «С‑реактивного белка», можно правильно нормализовать и «белка», поскольку нужное понятие словарное понятие (с идентификатором C0033684) в базе знаний указано как более общее понятие (broader concept) по отношению к «С‑реактивного белка» (C0006560).

Вот почему важно рассматривать вложенные сущности как единый контекст и выполнять нормализацию совместно.

Постановка задачи

Задача линкинга состоит в сопоставлении упоминаний болезней, препаратов, анатомических структур и других биомедицинских сущностей в текстах с их стандартными представлениями в словаре или базе знаний. Например, если в тексте встречается фраза «боль в голове», система должна определить, что это связано с концептом «цефалгия».

Исходя из этого формулировка задачи, которую будут решать участники, звучит следующим образом: по упоминанию сущности (диагноза/лекарства/органа) найти в словаре термин, которому эту упоминание соответствует.

Как и годом ранее на BioNNE, в BioNNE‑L мы выделили 3 подзадачи. Оценка по каждой из них происходит независимо, вы можете поучаствовать как во всех сразу, так и лишь в одной задаче.

  • Одноязычный трек, в рамках которого предполагается создание одноязычных систем линкинга для английского (подзадача 1) и русского (подзадача 2);

  • Двуязычный трек, подразумевающий разработку единой двухязычной модели, обученной на многоязычном наборе данных, объединенном из английских и русских данных (Подзадача 3). Обратите внимание, что в этом треке не допускается использование прогнозов одноязычных моделей.

Особенности и трудности соревнования:

  • Высокая вложенность сущностей: короткие упоминания являются подстроками упоминаний более длинных сущностей, те — подстроками еще более длинных сущностей и т.д.. Исследования о том, как агрегировать такую вложенность, на момент создания соревнования нам неизвестны.

    Ниже приводится пример сущностей, вложенных в сущность «нейроэндокринной опухоли поджелудочной железы» и визуализированных в виде графа. Вершинами выступают вложенные сущности, связанные ребрами в тех случаях, когда одна сущность вложена в другую.

    BioNNE-L — соревнование по нормализации биомедицинских именованных сущностей на русском и английском языках - 3
  • Неполнота русской терминологии: некоторые русскоязычные сущности нормализованы к концептам, имеющим только англоязычное наименования. 

  • Большой размер русско-английского словаря: около 4 миллионов пар {концепт: наименование}.

Данные

Что размечено? В прошлом году мы опубликовали корпус NEREL‑BIO [2], состоящий из размеченных русскоязычных аннотаций (abstracts) научных статей из базы научных статей по биологии и медицине PubMed. NEREL‑BIO основан на корпусе NEREL [3], посвященном вложенности в задаче распознавания именованных сущностей. NEREL‑BIO и послужил основой для русскоязычной дорожки соревнования BioNNE‑L. Для англоязычной дорожки мы схожим образом разметили англоязычные аннотации научных статей.

Зачем размечали? До нас датасетов, посвященных вложенности в задачах линкинга, не было вовсе из‑за сложности разметки. Мы обнаружили это белое пятно, напряглись и решили его покрыть.

К чему нормализуем? В области биомедицины есть огромный мета‑тезаурус UMLS (Unified Medical Language System), описывающий более 4 миллионов биомедицинских концептов из почти 200 разных словарей и баз знаний. UMLS поддерживает около 30 языков, включая русский и английский, но с сильным перекосом в английский как высокоресурсный язык. Каждый концепт UMLS представлен одним или более наименованием концепта, однако менее чем у 5% концептов есть русское наименование.

Что такое биомедицинский концепт? Концепт — это какое‑либо понятие из области биологии или медицины. Например, лекарственный препарат, действующее вещество, конкретное заболевание или группа заболеваний и т. п. Но один и тот же концепт в зависимости от предметной области, может называться разными синонимичными наименованиями.

Так, цефалгия — научное название головной боли, которую также можно назвать болью в голове. Для лекарств синонимия возникает из‑за существования разных торговых знаков: пары найз и нимесулид, нурофен и ибупрофен задают препараты с одинаковыми действующими веществами. Для тех, кто знаком с Wordnet, концепт UMLS аналогичен синсету в Wordnet, а наименования концепта — синонимам (senses).

Какие типы концептов размечали? В BioNNE‑L размечены 3 типа сущностей: (i) заболевания (DISO), (ii) названия химических веществ (CHEM), (iii) анатомические структуры (ANATOMY).

Причём здесь неполнота терминологии? Как уже было сказано, у большинства концептов мета‑тезауруса UMLS нет наименований на русском. Можно такие сущности не размечать вовсе, но они‑то и представляют особый интерес, поэтому часть сущностей на русском в соревновании залинкована на концепты, у которых нет русского наименования, но есть английское.

Формат размеченных данных

Данные соревнования представляют собой TSV‑файл, каждая строка которого описывает одну биомедицинскую сущность одного из возможных типов: DISO, CHEM или ANATOMY. Несколько примеров размеченных сущностей приведено ниже.

BioNNE-L — соревнование по нормализации биомедицинских именованных сущностей на русском и английском языках - 4

Поля здесь следующие:

document_id — уникальный текстовый идентификатор документа (аннотации статьи), из которого взята данная сущность. Каждый документ содержит набор сущностей, описываемых своими позициями в тексте.

text — строковое упоминание данной сущности в тексте.

entity_type — высокоуровневый семантический тип сущности в базе знаний UMLS. Может принимать одно из трех значений: DISO, CHEM, ANATOMY. 

spans — список позиций сущности в тексте документа с указанным document_id. Каждая запись содержит начальную и конечную позицию, например, 22–28. Если сущность прерывается вкраплением не относящихся к ней слов, то она имеет несколько позиций (например, 472–476,492–500 для «traumatic lung injuries»).

UMLS_CUI  — уникальный идентификатор концепта (CUI) в метатезаурусе UMLS. Именно его участникам предстоит предсказать.

Чего мы хотим от соревнования?

Участникам BioNNE‑L предлагается разработать и экспериментально оценить способы борьбы с вышеупомянутыми трудностями.

Вложенная постановка задачи нормализации не исследована. Обычно нормализация выполняется для сущностей индивидуально, независимо от того, имеет ли вложенные подсущности, или же она сама вложена в более длинную сущность. Раньше подходящих датасетов для такой постановки попросту не было из‑за сложности такой разметки. BioNNE‑L, помимо предоставления такого датасета, позволит конкурентно сравнить разные подходы и выявить лучшие.

Мы предлагаем всем участникам соревнования при создании своего решения попробовать поискать ответы на следующие исследовательские вопросы:

  • Как, если возможно, улучшить качество линкинга используя вложенные сущности как дополнительный контекст?

    На текущий момент линкинг вложенных сущностей не исследован, можно занять нишу. Если отринуть чисто исследовательскую пользу от соревнования, то, достигнув успеха на нашем BioNNE‑L, можно доработать свою идею до публикации, заведомо выдающейся по своей новизне — интересная перспектива!

  • Каков оптимальный метод межъязыкового линкинга при неполноте терминологии?

  • Как бороться с сильным увеличением размера словаря при слиянии одноязычных словарей?

    При неполноте терминологии мы наперед не знаем, есть ли в словаре нужный концепт на малоресурсном языке (русском). В рамках соревнования мы предоставляем смешанный русско‑английский словарь, однако он содержит около 4 миллионов записей, но, так сказать, «исконно русских» наименований в нём менее 200 тысяч. Итого, по причине неполноты русского словаря имеем 20-кратное увеличение размера смешанного словаря из‑за расширения его английскими терминами, что ударяет как по памяти, так и по времени предсказания.

Как поучаствовать в BioNNE-L

1. Зарегистрируйтесь в воркшопе BioASQ.

2. Зарегистрируйтесь на наше соревнование в Codalab для своевременного получения новостных рассылок.

3. Посетите репозиторий BioNNE‑L или страницу HuggingFace, чтобы узнать больше информации и загрузить данные.

Приглашаю всех желающих к участию в нашем соревновании BioNNE‑L!

Ссылки

[1] Davydova V., Loukachevitch N., Tutubalina E. Overview of BioNNE task on biomedical nested named entity recognition at BioASQ 2024 //CLEF Working Notes. – 2024.

[2] Loukachevitch N., Sakhovskiy A., Tutubalina E. Biomedical Concept Normalization over Nested Entities with Partial UMLS Terminology in Russian //Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). – 2024. – С. 2383-2389.

[3] Loukachevitch N. et al. NEREL-BIO: A dataset of biomedical abstracts annotated with nested named entities //Bioinformatics. – 2023. – Т. 39. – №. 4. – С. btad161.

Автор: Andrey_Sakhovskiy

Источник

Рейтинг@Mail.ru
Rambler's Top100