王小红：主题模型为科学与人文融合提供新契机-西安交通大学人文社会科学学院

首页

综合新闻

当前位置: 首页 >> 综合新闻 >> 正文

王小红：主题模型为科学与人文融合提供新契机

2018-12-14 点击：[]

主题模型（Topic Model, TM）是一种新型文本内容分析方法，它利用机器学习算法来发现文件集（语料库）中隐藏的主题结构，不仅可以计算生成整个语料库的主题，还可以自动给出每个文件按照主题呈现的内容结构，即抓取每个文件的内容。在信息爆炸的网络时代，学者们需要处理海量文献，通过主题模型用机器阅读的形式，为解决文献增量超出人类精力、理解范围等问题提供了解决途径。并且，新的文献研读方式也将带来新的研究视角，甚至新的研究发现。

人文学者做研究要进行文献研读，研读文献通常采用直接和近距离阅读方式，而TM则引入了新型阅读方式“远距离阅读”（distant reading）和超书架功能。将一个大型文件集的语料库作为计算机的输入数据，只需运行TM算法，就能够自动生成在人文专家看来颇有解释意义的“主题”（topic）。一个主题可以看作是词汇的聚类，无论何时讨论该主题，这些词汇便会共同出现。从概率上说，这些聚类词的共现频率高于不讨论该主题时这些词的共现频率。TM属于语义统计模型中的一种，可称为对语义进行概率统计建模的方法。其中，最简单且应用最广的概率建模技术是布莱（David M. Blei）团队于2003年提出的隐形狄利克雷分布（Latent Dirichlet Allocation, LDA）。近年来，一些人文学者尝试借助主题建模技术辅助文献研读，取得的研究成果已经展现出十分有趣的人文意蕴。

实现大型古典哲学语料库的结构化

依靠人工辨识和分类，要使一个庞大的文件库呈现清晰的结构，往往需要耗费大量人力和时间。而且传统人工方法只能依据文章和著作的名称、著者名、关键词等外部信息，进行外围框架分类和查询，要想深入到文档内容进行海量文档库分类，依靠人工方法难以实现。而TM则能够根据文档内容实现对一个庞大文件库的结构化。这种分类管理的核心在于主题，TM可以呈现出每个文件依据主题（20个、40个直到100个）分布的结构表、结构图。

研究人员以往通常根据关键词搜索查询所需文件，若能够直接看到文件的内容结构，根据研究主题获取相关信息，并能够直接看到文档库中其他文件与此文件主题的关联度，那么，研究人员不但可以便捷、高效地找到所需，而且还能够获得用传统人工方法无法得到的洞见。

TM能够经推理得出文集具有可解释性的隐含结构，并用这种结构标注了每一个文档，这种结构和标注可用于对信息的获取、分类，以及对语料库的开发。这种算法结果可以管理、组织和标记大型文本档案。随着越来越多高质量的数字化文献文本资料库的建立，人们将用新的方式查询和分析文献。

我们和匹兹堡大学计算哲学家艾伦（Colin Allen）的IU（Indiana University）团队合作建立的一个包含近18000个文本的中国古代哲学语料库，通过主题建模分析，呈现出对于中国哲学研究者和学习者颇有解释意义的主题（如图所示）。

为史学研究提供新解读和新证据

在使用主题建模于中国史学研究方面，哈佛大学中国史研究者米勒（Ian M. Miller）对中国清朝社会变乱实况进行了考察。清朝18、19世纪出现的民变四起的社会实况是诸多历史学家的关注点，米勒的工作另辟蹊径，通过分析清朝政府统治者批阅的奏折内容，对这一时期的实录文本材料进行主题建模，基于与暴乱相关主题中共同出现的词群，建构了从各级官员到统治者关于当时社会时局的理解模型。不同历史时期对反映社会实况的词汇缺乏固定定义，历史学家研究史料时不得不通过先验分类定义，而米勒通过主题建模方法，保持了研究的客观性，避免了范畴模糊的词语对理解文意的干扰，并在此基础上探究了清朝出现的几起大型变乱现象的规律性。

加拿大汉学家森舸澜（Edward Slingerland）和美国哲学家尼克斯（Ryan Nichols）合作的团队，近年来致力于结合机器学习研究亚洲文化。2018年，他们用TM的远距离阅读方法对《论语》《孟子》《荀子》的内容进行比较，分别解释了三部论著中相同和不同的主题。他们的结果证实了许多学者采用传统近距离阅读方法得到的结论，即荀子的论著与《论语》在语义内容上存在共性。2017年，他们采用主题建模结合其他算法技术，分析了引起西方汉学界较大争议的问题，即中国传统思想是否以“强”身心整体论为特征。他们建立了一个从西周到宋朝的古籍文本语料库。计算结果显示，荀子及其他中国早期思想家，在提到“心”时往往也会提到心与身体的关系，这表明，比之身体其他器官，心在早期中国思想中具有不同的认知地位。

与文化研究存在高度亲和性

此外，还有一项研究展示了主题建模技术与文化社会学研究的高度亲和性。文化社会学研究者迪马吉奥（Paul DiMaggio）和布莱于2013年合作的一项研究，选取代表性报刊刊登的公共艺术资助方面的新闻报道，使用TM分析其中的演变趋势。美国国家艺术基金（NEA）从1965年设立至今，有过两次骤降，骤降的原因除通货膨胀外，还有复杂的政治、文化、社会等多方面的影响，因此，造成1979—1996年资助持续衰减的原因，至今仍未研究清楚。

围绕NEA争议最激烈的一个时段（1986—1997年），该团队通过收集整理这十年中五家报纸的所有报道，建立了一个近8000个文本、超过300万词语的语料库，使用TM分析识别出最重要的话题，从而框定了政府资助方面的讨论。

TM使文化学中的重要概念如框架、一词多义性、杂语性、意义的关系性具有了可操作性。他们强调，TM进路对文化社会学研究有三大优势：1. TM产生的具有可解释性的主题内容，展现了文化意义上的解释框架。2. TM抓住了语言学家和许多文化社会学者的共同洞见，即意义从关系而非词汇中显现。3. LDA生成的结果呈现出每一篇文章中具有多主题结构，有助于从实证层面检视文化社会学的核心洞见和文本的杂语性。

上一条：【人文通识】声乐表演艺术
下一条：“高歌四十载，奋进新时代”---庆祝改革开放四十周年合唱汇演成功举办