• 中国核心期刊(遴选)数据库收录期刊
  • 中文科技期刊数据库收录期刊
  • 中国学术期刊(光盘版)收录期刊
  • 中国人民大学报刊资料数据库收录期刊
  • 中国学术期刊综合评价数据库统计源期刊
  • 中国台湾华艺数据库收录期刊

情报探索 ›› 2021, Vol. 1 ›› Issue (7): 1-.

• 综述述评 •    

阿拉伯文文本预处理方法研究综述*

罗姝匀 于娟   

  1. 福州大学经济与管理学院福建福州350108
  • 出版日期:2021-07-14 发布日期:2021-07-15
  • 通讯作者: 罗姝匀(1996—),女,2018级硕士研究生,研究方向为数据挖掘与商务智能;于娟(1981—),女,博士,教授、博导,主要研究方向为数据挖掘与智能信息系统。
  • 基金资助:
    *本文系国家自然科学基金项目“基于本体学习与本体映射的组织异构数据融合方法研究”(项目编号:71771054)成果。

  • Online:2021-07-14 Published:2021-07-15

摘要: [目的/意义]旨在促进阿拉伯文文本挖掘的研究与应用,为其他学者提供参考。[方法/过程] 概述阿拉伯文的基本特征与语法规则,从分词、词性标注、词干提取、词形还原四个方面对比分析阿拉伯文文本预处理方法及主流应用,并指出现有研究的不足与未来研究方向。[结果/结论] 未来研究中,可以通过完善词典、改进词义消歧效果等方法进一步提高阿拉伯文文本预处理的效率和准确率.

关键词: 阿拉伯文, 文本预处理, 阿拉伯文分词, 词性标注, 词干提取, 词形还原