爬虫修炼的三种境界-369IT编程

admin管理员组
文章数量:1130349

爬虫修炼的三种境界

前言

我搞爬虫断断续续也两三年了，不专职做，但经常遇到一些数据的需求，所以绕不开它。
看了目前出版的书籍，以及CSDN和知乎上一些讨论。简单总结一下个人体会。

互联网上50%的数据是无需登录就能获取的，这些用三套件就能解；还有30%的数据是需要登录的，用selenium解；剩下10%的数据需要逆向破解才能获取。

三种境界

或者是三个阶段。

第一个阶段：爬取简单网页

这个阶段就是会利用bs4, lxml加requests三个库，能搞掂无需登录的页面数据。能根据浏览器devtool分析一些ajax请求的URL，然后采用三套件爬取。例如一些无限下拉请求，分页请求的数据。
完成这个阶段，基本能搞掂60~70%数据的获取了。也算是初级爬虫工程师了。

第二个阶段: 爬取动态数据

这个阶段能利用selenium，或puppeteer或Playwright搞掂一些动态数据。所谓动态，就是页面第一次渲染不会出来的数据，也就是你直接用request.get()拿不到，需要手工点击，下拉或延迟才能加载出来的数据。
这个阶段，能模拟一些简单的登录，分析页面的请求流程，然后组装自己的爬取逻辑。

第三阶段：逆向与破解

场景：必须登录才能拿到数据。两个解决途径：

采用selenium/puppeteer/Playwright拉起chrome，debug模式，手工登录一次，然后selenium模拟人工随机点击，保持会话，然后即可做其它数据抓取。笔者采用此法屡试不爽。避开了要破解登录的难题
登录破解，通过抓包，逆向，分析登录数据，主要是token，然后程序模拟登录，再进一步获取
此阶段包括app数据的抓取。

几点体会

不要想着把所有操作都自动化，这样成本会比较高。自动化要一步步来，先比全手工提高半步就行。例如抓取csdn的所有社区，直接从devtool里拿就是，何须要自动化呢？
工具都有局限性，要结合多个工具
优先使用bs4, lxml+requests搞掂，下下策再去考虑逆向

爬虫修炼的三种境界

前言

互联网上50%的数据是无需登录就能获取的，这些用三套件就能解；还有30%的数据是需要登录的，用selenium解；剩下10%的数据需要逆向破解才能获取。

三种境界

或者是三个阶段。

第一个阶段：爬取简单网页

第二个阶段: 爬取动态数据

第三阶段：逆向与破解

场景：必须登录才能拿到数据。两个解决途径：

采用selenium/puppeteer/Playwright拉起chrome，debug模式，手工登录一次，然后selenium模拟人工随机点击，保持会话，然后即可做其它数据抓取。笔者采用此法屡试不爽。避开了要破解登录的难题
登录破解，通过抓包，逆向，分析登录数据，主要是token，然后程序模拟登录，再进一步获取
此阶段包括app数据的抓取。

几点体会

不要想着把所有操作都自动化，这样成本会比较高。自动化要一步步来，先比全手工提高半步就行。例如抓取csdn的所有社区，直接从devtool里拿就是，何须要自动化呢？
工具都有局限性，要结合多个工具
优先使用bs4, lxml+requests搞掂，下下策再去考虑逆向

本文标签：爬虫修炼的三种境界

版权声明：本文标题：爬虫修炼的三种境界内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://it.en369.cn/IT/1694643535a254429.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

爬虫修炼的三种境界

爬虫修炼的三种境界

目录

前言

三种境界

第一个阶段：爬取简单网页

第二个阶段: 爬取动态数据

第三阶段：逆向与破解

几点体会

爬虫修炼的三种境界

目录

前言

三种境界

第一个阶段：爬取简单网页

第二个阶段: 爬取动态数据

第三阶段：逆向与破解

几点体会

更多相关文章

爬虫修炼的三种境界

发表评论

推荐文章

仿华为手机管家“一键优化”Loading加载框

error: ROIAlign_cuda.cu(275): error: no instance of function template “THCCeilDiv“ matches

springBoot 文件压缩加密

软件工程专业英语翻译【考研复试】

同时安装Java8和Java17：如何自由切换？（For Windows10）

热门文章

linux上的手机管家,腾讯手机管家官网版

青龙面板教程系列-青龙面板Spy监控教程 自动更新环境变量

【Kubernetes】菜鸟学K8S之安装Kubernetes（使用kubeadm安装）

搜狗输入法细胞词库PHP怎么用,搜狗输入法2015如何使用细胞词库 什么是搜狗输入法2015细胞词库...

Windows Phone，爱过

win7c盘清理

在局域网搭建一个带 web 操作页面的 git 版本服务器 - Gitlab

电脑任务栏怎么还原到下面？任务栏快速还原方法介绍

[Windows]2024最新 Anaconda的安装与配置（含镜像源）详解

oppor7root（oppor7root权限怎么解除）

最新文章

Sublime 32位 激活码

windows下载安装远程桌面工具RealVNC-Server教程(RealVNC_E4_6_1版带注册码)

【亲测免费】 抖音直播伴侣推流密钥获取工具使用教程

【亲测免费】 Proxifer 安装包与注册码

Royal TSX许可证密钥(6.x后所有版本都可以用)

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

responsive - How to exclude an image size from the Wordpress srcset

青龙面板教程系列-青龙面板Spy监控教程自动更新环境变量

搜狗输入法细胞词库PHP怎么用,搜狗输入法2015如何使用细胞词库什么是搜狗输入法2015细胞词库...

Sublime 32位激活码

【亲测免费】抖音直播伴侣推流密钥获取工具使用教程