摘 要:针对科技项目查重的需要,利用分词的结果,将科技项目文档转换为文本向量空间模型,抽取特征词,并将特征词的位置和词的长度2个因素考虑进来,提出一种TF-IDF值的改进计算方法,并实例验证该方法有一定的改善效果。
关键词:文本特征 特征词权值 TF-IDF 算法改进 项目查重 科技项目
中图分类号:TP301.6 文献标识码:A doi:10.3969/j.issn.1005-8095.2012.01.001
收稿日期:2011-10-13
*本文系福建省公益类科研院所科研专项“基于相似性计算的科技项目查重技术研究”(项目编号:2010R1009-4)的成果之一。
作者简介:方延风(1975—),男,硕士,高级工程师。