Лаборатория информационных технологий им. М. Г. Мещерякова
Общелабораторный семинар
Дата и время: четверг, 4 июня 2026 г., в 15:00
Место: комната 310, Лаборатория информационных технологий
им. М. Г. Мещерякова, онлайн в Webinar
Информация о семинаре в Indico
Тема семинара: «Методы и программные средства автоматизации управления метаданными научных публикаций»
Докладчик: Андрей Кондратьев
В исследовании представлены методы и программные средства автоматизации управления метаданными научных публикаций, обеспечивающие сквозную обработку библиографических данных от агрегации из распределённых источников до верифицированного импорта в институциональные цифровые репозитории. Предложена методика каскадной агрегации метаданных через программные интерфейсы внешних научных баз, позволяющая формировать унифицированные записи публикаций посредством последовательного сопоставления по цифровым идентификаторам и библиографическим атрибутам. Для разрешения авторской неоднозначности разработан мультифакторный алгоритм, интегрирующий детерминированные сопоставления по глобальным идентификаторам исследователей, нечеткое сравнение фамилий и инициалов с применением метрик строкового расстояния, а также контентный анализ тематических профилей на основе статистической модели взвешивания терминов. Реализован гибридный механизм верификации, при котором алгоритмическая фильтрация дополняется маршрутизацией сложных случаев в систему экспертной проверки, что минимизирует долю ручной обработки. Программный комплекс спроектирован на основе модульной архитектуры с унифицированными адаптерами для платформ цифровых репозиториев с открытым исходным кодом, что гарантирует независимость производительности от типа целевой системы хранения. Экспериментальная оценка в производственной среде подтвердила высокую точность идентификации авторов, эффективность устранения дубликатов и существенное снижение временных затрат на обработку библиографических записей.