首页|一种基于指定电子商务网站的定向爬虫的实现方法

一种基于指定电子商务网站的定向爬虫的实现方法

扫码查看
本发明公开了一种基于指定电子商务网站的定向爬虫的实现方法,本发明属于WEB数据采集领域,为提高爬虫的分析效率、爬准率,降低因网页内容变动地而导致的爬虫失效率,提高代码的可读性和健壮性;在广义爬虫的基础上,利用队列对任务的顺序进行管理、使用线程池管理机制实现多线程的网页内容分析来提高爬取效率,利用Python作为实现语言,使用CSS选择器和正则表达式结合的手法对指定页面信息进行抓取,大幅提高了爬虫的分析效率、可读性及容错率,从而形成的一种专用于分析指定电子商务网站商城商品信息的聚焦爬虫,该方法提高了爬虫的效率与爬准率,增强了爬虫的适应性和健壮性。本发明为电商价格分析提供了一种稳定便利的数据来源。

CN201410266881

CN104050037A

发明专利

2014-06-13

2014-09-17

G06F9/48(2006.01)I

淮阴工学院

周泓、朱全银、李翔、曹苏群、张宇洋、刘文儒、周蕾、戎圣吉、潘禄、王留洋

223005 江苏省淮安市高教园区枚乘东路1号

中国(CN)