python带账号密码的爬取-369IT编程

admin管理员组
文章数量:1130349

python 带账号密码的爬取

某些网页需要输入账号密码才能进入到特定的页面，比如cdsn登陆之后才能进入自己的博客管理页面。
博客页面url：
登陆的方式有几种，如下具体描述。
假如没有输入用户名密码的原始爬取，代码

import urllib.requesturl = ""
headers = {'User-Agent:': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
req = urllib.request.Request(url=url, headers=headers)
content = urllib.request.urlopen(req)with open('a.html', 'w', encoding='utf-8') as f:f.write(content.read().decode('utf-8'))

运行之后，得到的html页面为

爬取的网站，会默认的回到登陆页面
所以需要使用用户名和密码的登陆方式。

方法一：
打开登陆页面，f12调出开发者工具，使用账号密码登陆，相应的在开发者工具network中查看该网页，点击后寻找到cookie
cookie中包含了账号密码信息，将cookie写入headers中，执行代码

import urllib.requesturl = ""
headers = {'User-Agent:': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36','cookie': "xxxxxxxxxxxxxxxxxxxxxxxxxx"}
req = urllib.request.Request(url=url, headers=headers)
content = urllib.request.urlopen(req)with open('a.html', 'w', encoding='utf-8') as f:f.write(content.read().decode('utf-8'))

打开a.html，页面为

方法二：
使用模拟登陆
模拟登陆就是先用账号密码模拟登陆，得到相应的cookie（python直接获取，不去查找），然后再用得到的cookie登陆网站
代码依次为

import urllib.request
import urllib.parse

python 带账号密码的爬取

import urllib.requesturl = ""
headers = {'User-Agent:': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
req = urllib.request.Request(url=url, headers=headers)
content = urllib.request.urlopen(req)with open('a.html', 'w', encoding='utf-8') as f:f.write(content.read().decode('utf-8'))

运行之后，得到的html页面为

爬取的网站，会默认的回到登陆页面
所以需要使用用户名和密码的登陆方式。

import urllib.requesturl = ""
headers = {'User-Agent:': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36','cookie': "xxxxxxxxxxxxxxxxxxxxxxxxxx"}
req = urllib.request.Request(url=url, headers=headers)
content = urllib.request.urlopen(req)with open('a.html', 'w', encoding='utf-8') as f:f.write(content.read().decode('utf-8'))

打开a.html，页面为

方法二：
使用模拟登陆
模拟登陆就是先用账号密码模拟登陆，得到相应的cookie（python直接获取，不去查找），然后再用得到的cookie登陆网站
代码依次为

import urllib.request
import urllib.parse

本文标签： python带账号密码的爬取

版权声明：本文标题：python带账号密码的爬取内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://it.en369.cn/IT/1694654973a254586.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

python带账号密码的爬取

python 带账号密码的爬取

python 带账号密码的爬取

更多相关文章

python带账号密码的爬取

发表评论

推荐文章

干货！18 款漏洞扫描神器大集合，网络安全从业者速进

root高级权限怎么弄，怎样拥有root权限

arm a7 支持虚拟化吗_ARM处理器架构和天梯图解析

cuda必须装在c盘吗_5招教你如何清除C盘除系统外的所有垃圾！学会了吗？

Windows更换国内镜像源配置高效提速

热门文章

智利outlook邮箱注册【.cl】，微软邮箱注册机长效邮箱

python爬虫qq好友信息,GitHub - equationlQQzone_crawler: QQ 空间动态爬虫，利用cookie登录获取所有可访问好友空间的动态保存到本地...

WiFI6版本弃子，小米路由器AX1800，通过配置文件永久开启ssh和ipv6传入网关设置

python爬取彼岸图网图片，涉及知识点：requests,xpath,urllib,文件下载后保存，ifname的用法

5个技巧帮你清理C盘内除系统之外的所有垃圾文件

解决方案：如何在虚拟机中扩展 Windows 11 C 盘，绕过恢复分区的限制！

【免费下载】 CAD绿色编辑器：轻量级、免安装的CAD数据编辑利器

台式电脑p键出现仅计算机,台式机如何切换投影仪

纯命令行+美观UI，10款实用开源下载工具

Python处理英文文档（添加音标和翻译）

最新文章

Sublime 32位激活码

windows下载安装远程桌面工具RealVNC-Server教程(RealVNC_E4_6_1版带注册码)

【亲测免费】抖音直播伴侣推流密钥获取工具使用教程

【亲测免费】 Proxifer 安装包与注册码

Royal TSX许可证密钥(6.x后所有版本都可以用)

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

responsive - How to exclude an image size from the Wordpress srcset

369IT编程

python带账号密码的爬取

python 带账号密码的爬取

python 带账号密码的爬取

更多相关文章

python带账号密码的爬取

发表评论

推荐文章

干货！18 款漏洞扫描神器大集合，网络安全从业者速进

root高级权限怎么弄，怎样拥有root权限

arm a7 支持虚拟化吗_ARM处理器架构和天梯图解析

cuda必须装在c盘吗_5招教你如何清除C盘除系统外的所有垃圾！学会了吗？

Windows更换国内镜像源配置高效提速

热门文章

智利outlook邮箱注册【.cl】，微软邮箱注册机长效邮箱

python爬虫qq好友信息,GitHub - equationlQQzone_crawler: QQ 空间动态爬虫，利用cookie登录获取所有可访问好友空间的动态保存到本地...

WiFI6版本弃子，小米路由器AX1800，通过配置文件永久开启ssh和ipv6传入网关设置

python爬取彼岸图网图片，涉及知识点：requests,xpath,urllib,文件下载后保存，if__name__的用法

5个技巧帮你清理C盘内除系统之外的所有垃圾文件

解决方案：如何在虚拟机中扩展 Windows 11 C 盘，绕过恢复分区的限制！

【免费下载】 CAD绿色编辑器：轻量级、免安装的CAD数据编辑利器

台式电脑p键出现仅计算机,台式机如何切换投影仪

纯命令行+美观UI，10款实用开源下载工具

Python处理英文文档（添加音标和翻译）

最新文章

Sublime 32位 激活码

windows下载安装远程桌面工具RealVNC-Server教程(RealVNC_E4_6_1版带注册码)

【亲测免费】 抖音直播伴侣推流密钥获取工具使用教程

【亲测免费】 Proxifer 安装包与注册码

Royal TSX许可证密钥(6.x后所有版本都可以用)

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

responsive - How to exclude an image size from the Wordpress srcset

python爬取彼岸图网图片，涉及知识点：requests,xpath,urllib,文件下载后保存，ifname的用法

Sublime 32位激活码

【亲测免费】抖音直播伴侣推流密钥获取工具使用教程