• 中国核心期刊(遴选)数据库收录期刊
  • 中文科技期刊数据库收录期刊
  • 中国学术期刊(光盘版)收录期刊
  • 中国人民大学报刊资料数据库收录期刊
  • 中国学术期刊综合评价数据库统计源期刊
  • 中国台湾华艺数据库收录期刊

情报探索

• 工作研究 •    

微博主题语料库的设计与实现

张钰莎   

  1. (广东外语外贸大学南国商学院 广东广州 510545)
  • 出版日期:2016-10-19 发布日期:2016-10-19
  • 作者简介:张钰莎(1982—),女,硕士,副教授,主要研究方向为数据挖掘,已发表论文14篇,出版著作3部。
  • 基金资助:
    *本文系广东省哲学社会科学“十二五”规划项目“微博公共事件自动发现及演化模型研究” (项目编号:GD14YXW02);国家自然科学基金项目“面向微博公共事件的反向社会情绪识别及演化分析研究” (项目编号:61572145)成果之一。

  • Online:2016-10-19 Published:2016-10-19

摘要: 研究微博语料库和数据处理相关技术,以实现对微博主题语料库的设计。[方法/过程]选取“大V”微博用户和草根微博用户各500个,采集每个用户发布的前300条信息作为研究对象,对微博数据进行预处理及信息过滤,构建由“大V”用户高频词、草根用户高频词、“大V”用户高频词排名、草根用户高频词排名4个部分组成的主题语料库。[结果/结论]该语料库具有查看、搜索、添加及高频词排名等功能, 能够查询相应的“大V”用户和草根用户的微博主题高频词。

关键词: 微博, 语料库, 高频词