Ежегодно в мире происходит закономерный прирост объема знаний, появляются новые открытия и научные достижения. По данным Scopus, в 2023 году количество научных публикаций только в России достигло 1,7 млн [1]. По мере увеличения объема информации возрастает потребность в ее обработке и хранении. А для этого требуются структурированные описания этих данных - метаданные. Помимо автоматизированных систем, работающих с обработкой данных, они нужны также для создания пользователями запросов, анализа данных и интерпретации их содержимого. В некоторых источниках также упоминается их ключевая роль в обеспечении технических стандартов и правил генерации записей, что значительно упрощает процесс работы с данными [2].
Однако метаданные могут содержать ошибки и неточности по разным причинам (например, в случаях, когда авторы имеют одно и то же полное имя). Ручное формирование блока метаданных также требует некоторых временных затрат.
В рамках текущего исследования для решения упомянутых проблем реализуется система автоматического формирования блока метаданных научных документов на основании полученных данных с помощью Google Scholar SERP API [3], WikiData API [4], ORCID API[5] и Yandex Translate API [6] для уточнения исходных метаданных и дополнения недостающей информации. Рассматриваемая система позволяет извлекать метаданные на основе загруженных в систему научных публикаций и формировать выходной файл XML в формате NISO JATS V1.0 [7]. Данные, которые не были указаны в статье, могут быть дополнены с помощью сервисов Google Scholar SERP API, WikiData API, ORCID API и Yandex Translate API.
Объектом исследования является автоматизация процесса формирования блока метаданных научных документов.
Предметом исследования является анализ структуры научных документов, извлечение исходных метаданных и обработка запросов к семантическим сетям.
Целью данной работы является проектирование и разработка системы извлечения и уточнения метаданных из научных документов, а также дополнения недостающих фрагментов из открытых баз данных. Для достижения поставленной цели были определены следующие задачи:
1. анализ существующих решений, извлекающих метаданные научных документов;
2. анализ открытых базы данных для уточнения и дополнения метаданных;
3. анализ сервисов машинного перевода ключевых слов и аннотаций;
4. разработка системы запросов для поиска в семантической сети информации о статье;
5. реализация метода уточнения и дополнения метаданных научных документов;
6. тестирование метода с использованием коллекции научных документов;
7. разработка программного продукта в виде десктопного приложения.
Структура настоящей работы состоит из аннотации, введения, 6 глав, списка литературы и приложения.
В первой главе содержатся основные определения и обозначения, используемые в работе. Во второй главе устанавливаются требования к разрабатываемой системе, определяются инструменты разработки и состав набора метаданных. В следующей главе проводится обзор существующих решений для перевода текста и извлечения метаданных из научных документов. В четвертой главе представлен сравнительный анализ открытых баз данных научных публикаций. Глава 5 описывает общую модель работы системы. В последней шестой главе заключена реализация системы уточнения и дополнения блоков метаданных научных документов.
АННОТАЦИЯ 3
ВВЕДЕНИЕ 4
1 ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ И ОБОЗНАЧЕНИЯ 7
2 ПОСТАНОВКА ЗАДАЧИ 9
2.1 Требования к программному решению 9
2.2 Инструменты разработки 11
2.3 Состав набора метаданных 13
3 ОБЗОР СУЩЕСТВУЮЩИХ РЕШЕНИЙ 16
3.1 Обзор существующих решений для извлечения метаданных из научных документов 16
3.2 Выбор сервиса для машинного перевода ключевых слов и аннотации20
4 ОБЗОР ОТКРЫТЫХ БАЗ ДАННЫХ НАУЧНЫХ ПУБЛИКАЦИЙ 25
5 МОДЕЛЬ РАБОТЫ ПРОГРАММНОГО РЕШЕНИЯ 28
6 РАЗРАБОТКА СИСТЕМЫ 30
6.1 Функциональные возможности 30
6.2 Архитектура проекта 36
6.3 Извлечение и формирования метаданных 37
6.4 Дополнение и уточнение метаданных 40
6.4.1 Получение данных из Google Scholar 42
6.4.2 Получение данных из WikiData 4 8
6.4.3 Получение данных из ORCID 52
6.4.4 Модуль перевода аннотаций и ключевых слов 58
ЗАКЛЮЧЕНИЕ 61
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 63
ПРИЛОЖЕНИЕ 68
1. Scimago Journal & Country Rank [Электронный ресурс]. - URL: https://www.scimagojr.com/countryrank.php. (дата обращения: 15.05.2024)
2. Берестова Т. Ф. Что скрывается за термином «Метаданные» // Вестник ЧГАКИ. - 2017. - №1 (49). - С. 9. - URL:
https://cyberleninka.ru/article/n/chto-skryvaetsya-za-terminom-metadannye. (дата обращения: 20.04.2024)
3. Google Scholar API [Электронный ресурс]. - URL: https://serpapi.com/google-scholar-api. (дата обращения: 15.05.2024)
4. Wikidata: REST API [Электронный ресурс]. - URL: https://www.wikidata.org/wiki/Wikidata:REST_API. (дата обращения: 15.05.2024)
5. ORCID. Public API [Электронный ресурс]. - URL: https://info.orcid.org/documentation/features/public-api. (дата обращения: 15.05.2024)
6. Yandex Cloud. Yandex Translate API [Электронный ресурс]. - URL: https://yandex.doud/ru/services/translate. (дата обращения: 15.05.2024)