• 中国核心期刊(遴选)数据库收录期刊
  • 中文科技期刊数据库收录期刊
  • 中国学术期刊(光盘版)收录期刊
  • 中国人民大学报刊资料数据库收录期刊
  • 中国学术期刊综合评价数据库统计源期刊
  • 中国台湾华艺数据库收录期刊

情报探索 ›› 2022, Vol. 1 ›› Issue (3): 1-.

• 工作研究 •    

基于BI-LSTM+ Attention的网站多结构异常检测分析实证研究*

吴晓英1朱劲松2   

  1. (1.重庆科技学院图书馆重庆401331)
    (2.长安福特汽车有限公司重庆401331)
  • 出版日期:2022-03-23 发布日期:2022-03-23
  • 通讯作者: 吴晓英(1979—),女,硕士研究生,副研究馆员,研究方向为情报学、信息分析及处理、信 息服务;朱劲松(1977—),男,硕士研究生,工程师,研究方向为工业工程、信息分析。
  • 基金资助:

    *本文系重庆市教育委员会人文社会科学研究项目“双创背景下重庆市众创空间的知识传播与用户接受研

    究”(项目编号:19SKGH198);重庆市社会科学规划委托项目“双一流背景下高校图书馆助力人才创新

    能力培育模式研究”(项目编号:2019WT38);重庆市图书馆学会科研课题“基于体验营销的高校图书馆

    助力学生创新能力培育路径研究”(项目编号:CQTX202012)成果之一。

  • Online:2022-03-23 Published:2022-03-23

摘要:

[目的/意义]针对现有网民网站访问分析方法存在样本规则库更新,对新网站的访问难以提供识

别分析等问题,使用BI-LSTM、BI-LSTM+ Attention算法构建网站识别模型,实现网民访问网站的意图和

安全性识别预测。[方法/过程]使用BI-LSTM对网站进行多结构分析识别,根据网站链接的结构特性提

取出域名信息和参数信息作为主要分析数据,爬虫获取部分知名域名信息构建语料库,使用Word2vec来得

到网站链接中域名的词向量特征作为第一种网站结构识别检测,TF-IDF结合N-Gram算法来得到网站链接中

参数的特征向量作为第二种网站结构识别检测,构建网站识别模型。[结果/结论]多结构网民网站分析

模型的识别分析方法适合各年龄段的网民和各阶段水平信息能力的用户进行识别分析,深度学习与网站结

构结合的识别检测方法在上网过程的检测识别中具有维护健康上网环境的作用。

关键词: 网站访问, 长短记忆神经网络, URL检测