首页|基于BERT的黑灰产网页分类方法研究

基于BERT的黑灰产网页分类方法研究

扫码查看
本文提出了一种基于BERT模型的网站分类算法,用于识别特定网站。该算法利用BERT提取网页文本句子特征向量,并采用自注意力层,解决了计算机配置要求的问题。句向量经过核函数SVM分类器进行分类,使用Focal loss处理数据不平衡。实验结果表明,该方法在分类准确度方面明显优于传统机器学习算法和独立的BERT模型。
Research on the Classification Method of Black Grey Production Web Pages Based on BERT
The paper proposes a website classification algorithm using the BERT model to identify specific websites.This algorithm utilizes BERT to extract feature vectors of web page text sentences,and adopts a self attention layer to solve the problem of computer configuration requirements.The sentence vectors are classified using a kernel function SVM classifier,and Focal loss is used to handle data imbalance.The experimental results show that this method is significantly superior to traditional machine learning algorithms and independent BERT models in terms of classification accuracy.

web page classificationBERTdata imbalancedeep learning

李春霞、崔艳海、彭艳兵、周天河

展开 >

南京烽火天地通信发展有限公司,江苏南京 210019

武汉邮电科学研究院有限公司,湖北武汉 430000

南京掌控通信科技有限公司司法鉴定所,江苏南京 210000

网页分类 BERT 数据不平衡 深度学习

2024

中国科技纵横
中国民营科技促进会

中国科技纵横

影响因子:0.102
ISSN:1671-2064
年,卷(期):2024.(11)