R中随时间变化的动态主题模型/主题主题、模型、动态

2023-09-03 13:54:12 作者:心若向阳何惧悲伤

我有一个数据库,里面有1998至2008年间报纸上有关水资源政策的文章。我想看看这段时间报纸的发布情况是如何变化的。我的问题是,我应该使用动态主题建模还是主题随时间推移模型来处理这项任务?它们是否会明显好于传统的LDA模型(在LDA模型中,我基于整个文本语料库来拟合主题模型,并根据每个文档的标记方式绘制主题的趋势图)?如果是,是否有可以在R中用于DTA/TOT型号的包?

推荐答案

所以这取决于您的研究问题是什么。

动态主题模型允许与给定主题关联最强的单词随时间变化。介绍该模型的论文使用日记帐分录给出了一个很好的例子[1]。如果您对单个主题的特征是否随时间变化感兴趣,则这是正确的方法。

R语言中对文本数据进行主题模型topicmodeling分析

我以前没有处理过TOT模型,但它看起来类似于时间协变量是连续的结构主题模型。这意味着主题是固定的,但它们的相对流行率和相关性可能会有所不同。如果你把你的文章分成几个月,那么结构或TOT模型可以告诉你某些话题是随着时间的推移变得越来越流行还是变得不那么流行。

总而言之,您希望变化是在主题内还是在主题之间?您是想研究这些文章的主题有何不同,还是想研究这些文章如何构建某些主题?

在R方面,您会遇到一些问题。stm包可以处理具有离散时间段的STM,但据我所知没有TOT模型的预打包实现。对于DTM,我知道有一个C++实现是随介绍性文章一起发布的,我也有一个Python版本可以为您找到。

注意:我永远不会推荐某人对文本文档使用简单的LDA。我总是以相关的主题模型为基础,并在此基础上进行构建。

编辑:详细说明stm包。

这个包是结构化主题模型[2]的实现。STM是相关主题模型[3]的扩展,但允许在文档级别包含协变量。然后,您可以探索话题流行度与这些协变量之间的关系。如果您包括日期的协变量,那么您可以探索单个主题如何随着时间的推移而变得相对其他主题变得更重要或更不重要。该程序包本身优秀、快速且直观,并且包括选择最合适数量的主题等功能。

书名/作者声明:[1][1]Blee,David M.,John D."动态主题模型。"第23届国际机器学习会议论文集。ACM,2006。

罗伯茨、玛格丽特·E等人。"开放式调查答复的结构化主题模型。"《美国政治学杂志》58.4(2014):1064-1082

书名/作者声明:[by]John D."相关主题模型。"神经信息处理系统的进展。2006年。