基于特征词配对的德语文本聚类方法研究*

情报探索 ›› 2022, Vol. 1 ›› Issue (9): 1-.

• 工作研究 •

基于特征词配对的德语文本聚类方法研究*

（福州大学经济与管理学院福建福州 350108）

出版日期:2022-09-15 发布日期:2022-09-30
作者简介:简梓炜（1997—），男，2019级硕士研究生，研究方向为数据挖掘；于娟（1981—），女，博士，教授、博导，研究方向为数据挖掘与智能信息系统。
基金资助:
*本文系国家自然科学基金项目“基于本体学习与本体映射的组织异构数据融合方法研究”（项目编号：71771054）和国家自然科学基金项目“虚拟健康社区信息可信度评价模型及智能推荐研究”（项目编号：72171090）成果之一。

Online:2022-09-15 Published:2022-09-30

摘要/Abstract

摘要： ［目的／意义］提出一种适用于德语文本处理的文本相似度计算方法，填补了国内外德语文本聚类研究的空缺。［方法／过程］通过词语提取和特征词选择将每个德语文本表示为一个特征词的集合，寻找集合间配对的特征词对，由特征词对的匹配度得到文本间的相似度。［结果／结论］基于多个德语数据集的实验结果表明，相比于已有方法，本文提出的基于特征词配对的德语文本聚类方法提升了约5%的NMI值和约6%的Purity值。基于特征词配对的相似度计算方法能够保留更多的文本信息，从而进一步提升德语文本聚类的性能。

关键词:

德语, 文本聚类, 特征词, 文本相似度

简梓炜于娟.

基于特征词配对的德语文本聚类方法研究* [J]. 情报探索, 2022, 1(9): 1-.

[1]	李璐萍, 赵小兵, . 基于文本聚类的主题发现方法研究综述*[J]. 情报探索, 2020, 1(11): 1-.
[2]	曹晓. 文本聚类研究综述[J]. 情报探索, 2016, 0(1): 1-.

基于特征词配对的德语文本聚类方法研究*

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 2

编辑推荐

Metrics

本文评价