首页|基于正则匹配和Bloom filter的增量新闻URL提取方法

基于正则匹配和Bloom filter的增量新闻URL提取方法

扫码查看
本发明公开了基于正则匹配和Bloom?filter的增量新闻URL提取方法,包括以下步骤:步骤一,搭建IP代理服务;步骤二,录入网站特征数据;步骤三,生成request并发送;步骤四,response预处理;步骤五,提取URL;步骤六,URL拼接域名;步骤七,URL过滤及过滤器更新;步骤八,步骤重复;步骤九,url标准化处理;步骤十,得到增量原始新闻URL;步骤十一,得到增量标准URL;步骤十二,储存;该发明,根据新闻网站首页或子板块首页新增URL较大概率是新闻URL的特点,发明设计了通过正则提取所有URL,进行处理后,用Bloom?filter快速过滤,筛选出新增的URL作为新闻URL的方法,从而能够有效的解决目前web新闻采集方法中存在的因为不能兼顾准确性和开发维护成本而带来的信息处理效率低、成本高的缺陷。

CN202210158871.0

CN114519163B

发明专利

2022-02-21

2024-05-03

G06F16/958(2019.01)

江西数易科技有限公司

周龙安

334000 江西省上饶市高铁经济试验区茶圣东路文创中心4号楼205室

中国(CN)