• 中国核心期刊(遴选)数据库收录期刊
  • 中文科技期刊数据库收录期刊
  • 中国学术期刊(光盘版)收录期刊
  • 中国人民大学报刊资料数据库收录期刊
  • 中国学术期刊综合评价数据库统计源期刊
  • 中国台湾华艺数据库收录期刊

情报探索 ›› 2023, Vol. 1 ›› Issue (7): 1-.

• 理论探索 •    

基于语义特征句向量距离的汉语-俄语跨语言文本聚类方法研究*

  

  1. (福州大学经济与管理学院 福建福州 350108)

  • 出版日期:2023-07-15 发布日期:2023-07-31
  • 作者简介:潘思铭(1999—),女,2020级硕士研究生,研究方向为数据挖掘;巫邵诚(1997—),男,2021级博士研究生,研究方向为跨语言文本分析。
  • 基金资助:

    *本文系国家自然科学基金项目“基于本体学习与本体映射的组织异构数据融合方法研究”(项目编号:71771054)和国家自然科学基金项目“虚拟健康社区信息可信度评价模型及智能推荐研究”(项目编号:72171090)成果之一。

  • Online:2023-07-15 Published:2023-07-31

摘要:

[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotators DistanceWRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’ Distance,SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。

关键词:

跨语言, 文本聚类, 文本相似度, 汉语, 俄语