admin管理员组文章数量:1026989
原文链接:http://www.nicemxp/articles/11
本文目的抓取腾讯新闻首页中要闻页签下的所有新闻标题和链接。
如图:
地址:http://news.qq/top_index.shtml
要闻页签中一般会有几个分页:
所以要爬取要闻下的所有新闻标题和链接就需要一个一个分页的爬取。下面开始写代码。
首先获取腾讯新闻页面内容,写一个获取页面的接口。
先导入本次抓取所必备的库
# -*- coding:utf-8 -*-
#Python抓取网页必备的库
import urllib
import urllib2
#正则表达式
import re
#随机数生成
import random
#gzip
import gzip
from StringIO import StringIO
构建请求头部,请求页面
#构建页面请求的头部
headers =
原文链接:http://www.nicemxp/articles/11
本文目的抓取腾讯新闻首页中要闻页签下的所有新闻标题和链接。
如图:
地址:http://news.qq/top_index.shtml
要闻页签中一般会有几个分页:
所以要爬取要闻下的所有新闻标题和链接就需要一个一个分页的爬取。下面开始写代码。
首先获取腾讯新闻页面内容,写一个获取页面的接口。
先导入本次抓取所必备的库
# -*- coding:utf-8 -*-
#Python抓取网页必备的库
import urllib
import urllib2
#正则表达式
import re
#随机数生成
import random
#gzip
import gzip
from StringIO import StringIO
构建请求头部,请求页面
#构建页面请求的头部
headers =
版权声明:本文标题:python爬虫之爬取腾讯新闻 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://it.en369.cn/jiaocheng/1737854253a1512393.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论