admin管理员组文章数量:1026989
一,scrapy框架的工作流程
首先由引擎爬虫程序索要第一个要爬取的URL,交给调度器去入队列-->调度器处理请求后出队列,通过下载器中间件交给下载器去下载-->下载器得到响应对象后,通过蜘蛛中间件交给爬虫程序-->爬虫程序进行数据提取-->数据交给管道文件取入库处理,对于需要跟进的URL,再次交给调度器入队列,依次循环!
二,编写items.py文件(主要是用来定义爬取的文件和保存)
三,编写spiders爬虫文件
首先scrapy框架中由引擎爬虫程序索要第一个要爬取的URL, 再把招聘信息的网址封装成requests对象,在Scrapy里,获取网页源代码会由引擎分配交给下载器去做,不需要我们自己处理(也就是不需要requests.get())。我们之所以要构造新的requests对象,是为了告诉引擎,我们新的请求需要传入什么参数,这样才能让引擎拿到的是正确requests对象,交给下载器处理。
一,scrapy框架的工作流程
首先由引擎爬虫程序索要第一个要爬取的URL,交给调度器去入队列-->调度器处理请求后出队列,通过下载器中间件交给下载器去下载-->下载器得到响应对象后,通过蜘蛛中间件交给爬虫程序-->爬虫程序进行数据提取-->数据交给管道文件取入库处理,对于需要跟进的URL,再次交给调度器入队列,依次循环!
二,编写items.py文件(主要是用来定义爬取的文件和保存)
三,编写spiders爬虫文件
首先scrapy框架中由引擎爬虫程序索要第一个要爬取的URL, 再把招聘信息的网址封装成requests对象,在Scrapy里,获取网页源代码会由引擎分配交给下载器去做,不需要我们自己处理(也就是不需要requests.get())。我们之所以要构造新的requests对象,是为了告诉引擎,我们新的请求需要传入什么参数,这样才能让引擎拿到的是正确requests对象,交给下载器处理。
版权声明:本文标题:scrapy实战--爬取腾讯的招聘信息 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://it.en369.cn/jiaocheng/1726442090a624780.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论