• 中国核心期刊(遴选)数据库收录期刊
  • 中文科技期刊数据库收录期刊
  • 中国学术期刊(光盘版)收录期刊
  • 中国人民大学报刊资料数据库收录期刊
  • 中国学术期刊综合评价数据库统计源期刊
  • 中国台湾华艺数据库收录期刊

情报探索

• 理论探索 •    

融合多特征的TextRank藏文文本关键词抽取方法研究*

艾金勇   

  1. 西藏民族大学图书馆陕西咸阳712082
  • 出版日期:2020-07-23 发布日期:2020-07-23
  • 通讯作者: 艾金勇(1983—),男,硕士研究生,副研究馆员,研究方向为藏文信息处理、数字图书馆技术。
  • 基金资助:
    *本文系西藏科技厅项目“面向知识发现的藏文文献知识关联揭示方法研究”(项目编号:XZ2017ZRG-56)阶段性研究成果。

  • Online:2020-07-23 Published:2020-07-23

摘要: [目的/意义]旨在为提升藏文文本关键词的抽取效果提供参考。[方法/过程]分析中英文文本关键词抽取方法的特点和存在问题,针对藏文文本特点,提出一种融合多特征的TextRank关键词抽取方法,通过实验获取不同特征的相对最优权重系数,并将权值计算公式应用于TextRank的初始权值与转移概率的计算中。[结果/结论]该方法通过融合藏文文本的结构特征以及词语之间语法关系等关键词提取影响因素,实现了候选关键词的量化权值,相比于传统方法关键词抽取效果有明显提升,同时证明融合结构特征与语法特征能有效改善TextRank算法的性能。

关键词: 多特征, 藏文文本, 关键词抽取