Связывание терминов из научных текстов с сущностями баз знаний

Связывание терминов из научных текстов с сущностями баз знаний
Язык статьиРусский
Аннотация
В данной статье предлагаются новые алгоритмы связывания научных терминов с сущностями Википедии и MeSH (Medical Subject Headings), работающие в условиях ограниченного количества данных. Алгоритм связывания с Википедией для части коллекции текстов на русском языке использует поисковую систему Википедии для генерации кандидатов и библиотеку spaCy для получения векторного представления текста. Подсчет семантической близости между описанием сущности из Википедии и термином из текста выполняется не только на основе самого научного термина, но и контекста, в котором он расположен. Для части коллекции по медицинской тематике, содержащей переводы с русского на английский язык, описан и реализован алгоритм связывания терминов, который опирается на словарь медицинских предметных рубрик MeSH. Результаты экспериментов показывают значения F1-меры 50.77 % для Википедии и 40.05 % для MeSH, что является хорошим показателем в условиях малого объема размеченных данных. Проведенное исследование подчеркивает необходимость развития специализированных русскоязычных баз знаний по аналогии с MeSH. Перспективным направлением является применение мультиязычных моделей для кросс-лингвистического связывания, что особенно актуально для редких терминов. Полученные результаты могут применяться при создании интеллектуальных систем анализа научных текстов и автоматизированных научных ассистентов, что особенно важно для узких предметных областей.
УДК004.912, 004.8
Номер № 26,
Страницы53-76
Файл kuzovlevbaturastartsev.pdf (673.88 КБ)