• 中国核心期刊(遴选)数据库收录期刊
  • 中文科技期刊数据库收录期刊
  • 中国学术期刊(光盘版)收录期刊
  • 中国人民大学报刊资料数据库收录期刊
  • 中国学术期刊综合评价数据库统计源期刊
  • 中国台湾华艺数据库收录期刊

情报探索 ›› 2022, Vol. 1 ›› Issue (9): 1-.

• 工作研究 •    

基于特征词配对的德语文本聚类方法研究*

  

  1. (福州大学经济与管理学院 福建福州 350108

  • 出版日期:2022-09-15 发布日期:2022-09-30
  • 作者简介:简梓炜(1997—),男,2019级硕士研究生,研究方向为数据挖掘;于娟(1981—),女,博士,教授、博导,研究方向为数据挖掘与智能信息系统。
  • 基金资助:

    *本文系国家自然科学基金项目“基于本体学习与本体映射的组织异构数据融合方法研究”(项目编号:71771054)和国家自然科学基金项目“虚拟健康社区信息可信度评价模型及智能推荐研究”(项目编号:72171090)成果之一。

  • Online:2022-09-15 Published:2022-09-30

摘要: [目的/意义]提出一种适用于德语文本处理的文本相似度计算方法,填补了国内外德语文本聚类研究的空缺。[方法/过程]通过词语提取和特征词选择将每个德语文本表示为一个特征词的集合,寻找集合间配对的特征词对,由特征词对的匹配度得到文本间的相似度。[结果/结论]基于多个德语数据集的实验结果表明,相比于已有方法,本文提出的基于特征词配对的德语文本聚类方法提升了约5%的NMI值和约6%的Purity值。基于特征词配对的相似度计算方法能够保留更多的文本信息,从而进一步提升德语文本聚类的性能。

关键词:

德语, 文本聚类, 特征词, 文本相似度