ПРЕПРИНТ
О результатах, изложенных в препринтах, не следует сообщать в СМИ как о проверенной информации.
Авторами предложена новая методика для парного сравнения коллекций научных статей с помощью тематической модели. Разработанная методика получила название Сравнительного Тематического Анализа (СТА). СТА позволяет получить не только количественную оценку похожести коллекций, но и структурные различия сравниваемых коллекций, как в количественном виде, так и с помощью средств визуализации, разработанных авторами. В данном исследовании проведено сравнение существующих подходов к тематическому моделирования применительно к рассматриваемой задаче сравнения коллекций научных статей. Рас- смотрены вероятностные и генеративные тематические модели. Проведен анализ требований к текстовым коллекциям для корректного применения СТА. Методика СТА показала высокую эффективность на выделении структурных различий близких по тематике коллекций. Автора- ми разработана интегральная метрика «Коэффициент контентной аутентичности», позволяющая сравнивать коллекций между собой. В результате цифрового эксперимента, наиболее информативной показала себя тематическая модель с аддитивной регуляризацией (АRТМ).
Краснов Ф. В., Диментов А. В., Шварцман М. Е. 2019. Использование тематических моделей для парного сравнения коллекций научных статей. PREPRINTS.RU. https://doi.org/10.24108/preprints-3111698