• 中国核心期刊(遴选)数据库收录期刊
  • 中文科技期刊数据库收录期刊
  • 中国学术期刊(光盘版)收录期刊
  • 中国人民大学报刊资料数据库收录期刊
  • 中国学术期刊综合评价数据库统计源期刊
  • 中国台湾华艺数据库收录期刊

情报探索

• 理论探索 •    

基于《现代汉语词典》语义空间的中文文本语义相似度研究*

高俊芳 夏劲伟   

  1. 高俊芳1 夏劲伟2
    (1.江苏师范大学图书馆 江苏徐州 221116)
    (2.江苏师范大学智慧教育学院 江苏徐州 221116)
  • 出版日期:2018-11-21 发布日期:2018-11-21
  • 作者简介:高俊芳(1976—),女,硕士,图书馆员;夏劲伟(1976—),男,硕士,讲师。
  • 基金资助:
    *本文系江苏高校哲学社会科学研究项目“高校图书馆知识服务创新与实现路径研究”(项目编号:2017SJB0955)成果。

  • Online:2018-11-21 Published:2018-11-21

摘要: [目的/意义]针对现有基于向量空间模型(VSM)的中文文本语义相似度计算方法存在空间维度高、数据表示高稀疏性等问题,提出基于《现代汉语词典》汉语语义向量空间构建以及中文文本语义相似度计算方法。[方法/过程]利用分词系统ICTCLAS对《现代汉语词典》中词汇解释条目的文本进行分词、词性标注,依据基底词汇选取原则,经过过滤、解释、替换等操作后,选择出能解释所有中文词汇意义的基底词汇集合,并以此建立汉语语义空间。词汇间的相似度可通过计算词汇向量间的夹角余弦值来获得;中文文本的相似度则可以通过计算中文文本特征语义向量之间的夹角余弦值来得到。[结果/结论]与传统VSM方法和TF-IDF方法相比,实验结果表明本方法获得了较好的准确率和召回率。

关键词: 语义相似度, 中文文本, 现代汉语词典, VSM