爬虫漫游指南：无头浏览器puppeteer的检测攻防-369IT编程

admin管理员组
文章数量:1130349

1. 引言

许多爬虫初学者在接触到无头浏览器的时候都会有一种如获至宝的感觉，仿佛看到了爬虫的终极解决方案。无论是所有爬虫教程中都会出现的PhantomJS、Selenium，亦或是相对冷门的Nightmare，到后来居上的Puppeteer，都能够作为爬虫工程师的利刃，撕开反爬的一道道屏障。无头浏览器难道就是爬虫的终点了吗？那必然不是，否则各位爬虫工程师就只值3000块一个月了。

首先，无论多强大多轻便的无头浏览器，在同等配置的机器上，并发永远不可能高过python的一行request请求。在大规模数据采集中，服务器成本是必须考虑的问题，采集同样规模的数据，人家服务器成本花了1万块，你给霍霍了十几万，你猜老板会不会问候你老豆。其次，用无头浏览器写过爬虫的人应该都会觉得，很难靠headless browser搞出来一个复杂的、长期稳定的、可靠的大型爬虫，它们更适合应用在一些小规模的数据采集场合。最后，也是最重要的，无头浏览器并不是无敌的，反爬的一方不会乖乖束手就擒，你有张良计，他自然就有过强梯，反爬一方会通过某些方法检测出无头浏览器，然后把这些请求全部处理掉，某些网站你使用无头浏览器甚至无法打开首页。

上段说的最后一点，也就是针对无头浏览器的反爬攻防，就是本文所要讨论的内容。PhantomJS和Selenium已经日薄西山，本文只研究后来居上的Puppeteer。

2. 从蛛丝马迹中认出Puppeteer

2.1 webdriver

介绍

webdriver可以说是Puppeteer最明显的一个特征，检测也非常简单，获取navigator.webdriver这一属性，在默认启动的Puppeteer中，它的值为true，而在正常浏览器中，navigator里是没有这一属性的，是undefined。

矛

await page.evaluateOnNewDocument(() => {
   
   
  Object.defineProperty(navigator, 'webdriver', {
   
   
    get: () => false,
  });
});

简单解释一下这段代码，在新建页面之前，将webdriver的get方法强制返回false。那么类似于if (navigator.webdriver)这样的检测就不会生效了。

盾

var attr = window.navigator, result = [];
do {
   
   
    Object.getOwnPropertyNames(attr).forEach(function(a) {
   
   
        result.push(a)
    })
} while (attr=Object.getPrototypeOf(attr));

这段代码中，获取了navigator中所有属性名，而非属性值，也就是说，即便你把webdriver的值改为false了，这个属性仍然是在的。但是，在正常使用的chrome中，navigator是没有这一属性的，一旦检测到webdriver这个属性名，大概率可以判定为puppeteer。

破盾

破盾就不能针对puppeteer下手了，反正我是没有办法在检测前delete掉navigator.webdriver这个属性。
在发现这段盾的代码后，给它后面注入一点：

result = result.filter(function(item) {
   
   
    return item != "webdriver"
});

1. 引言

上段说的最后一点，也就是针对无头浏览器的反爬攻防，就是本文所要讨论的内容。PhantomJS和Selenium已经日薄西山，本文只研究后来居上的Puppeteer。

2. 从蛛丝马迹中认出Puppeteer

2.1 webdriver

介绍

矛

await page.evaluateOnNewDocument(() => {
   
   
  Object.defineProperty(navigator, 'webdriver', {
   
   
    get: () => false,
  });
});

简单解释一下这段代码，在新建页面之前，将webdriver的get方法强制返回false。那么类似于if (navigator.webdriver)这样的检测就不会生效了。

盾

var attr = window.navigator, result = [];
do {
   
   
    Object.getOwnPropertyNames(attr).forEach(function(a) {
   
   
        result.push(a)
    })
} while (attr=Object.getPrototypeOf(attr));

破盾

破盾就不能针对puppeteer下手了，反正我是没有办法在检测前delete掉navigator.webdriver这个属性。
在发现这段盾的代码后，给它后面注入一点：

result = result.filter(function(item) {
   
   
    return item != "webdriver"
});

本文标签：爬虫攻防无头浏览器指南

版权声明：本文标题：爬虫漫游指南：无头浏览器puppeteer的检测攻防内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://it.en369.cn/jiaocheng/1755022892a2754366.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

369IT编程

爬虫漫游指南：无头浏览器puppeteer的检测攻防

1. 引言

2. 从蛛丝马迹中认出Puppeteer

2.1 webdriver

介绍

矛

盾

破盾

1. 引言

2. 从蛛丝马迹中认出Puppeteer

2.1 webdriver

介绍

矛

盾

破盾

更多相关文章

网安毕设避坑指南：别选 “深度学习入侵检测” 了！我靠 “路由器安全配置” 轻松答辩

掌握C盘文件夹结构：系统维护与优化指南

C 盘清理终极指南：从安全释放到长期管理，告别空间焦虑

Windows系统U盘使用记录深度清理指南

系统清洁大师：CCleaner深度清理电脑垃圾指南

CCleaner系统优化与清理实用指南

[1]2025年最新 Python 下载安装指南（WindowsmacOS）

Win10纯净版详解及下载安装指南

2023年Win10纯净版安装包详解与优选下载指南

Windows10专业精简版下载指南与推荐

硬件信息修改利器——硬件修改大师实战指南

解决Microsoft Edge浏览器无法使用英文翻译功能

谷歌浏览器(chrome)在线翻译 解决方式

谷歌浏览器英文页面翻译成中文＜配置方式＞

Chrome浏览器内置翻译功能突然失效(自动翻译失败)解决方案

计算机专业买什么类型的笔记本_计算机专业学生的笔记本选择指南

深度学习入门指南：从零开始掌握AI核心技术

不可不知！AI应用架构师的虚拟购物架构指南

3配置的笔记本能不能运行博图v15_工控、电气工程师笔记本工作站选择指南

2023年4090显卡评测与购入指南

发表评论

推荐文章

XP系统优化软件

【免费下载】 游戏解包工具及教程

C盘焕新术：国际软件专家亲授实用清理秘籍，让你的电脑重焕新生！

电脑白屏,电脑白屏了按哪个键可以修复？

同时安装Java8和Java17：如何自由切换？（For Windows10）

热门文章

计算机c盘满了怎么移到d盘去,Win10电脑c盘满了怎么转移到d盘？

【AI大模型应用开发】1.0 Prompt Engineering（提示词工程）- 典型构成、原则与技巧，代码中加入Prompt

用计算机确定照片的黑白灰,电脑和手机屏色彩不一致，怎么办？以谁为准？| 摄影早自习第1042天...

如何还原在HP Pavilion计算机出厂设置

【免费下载】 CAD电气符号库(GB4728)打包下载

java class 加密_如何给class文件加密

carsim2020.0安装教程，并与matlab 2021b关联

英语翻译太难？我一怒之下用爬虫写了两个翻译脚本

【小白专用25.02.09已验证】windows 11 安装PHP8.4.3 +Apache2.4+SqlServer2022

windows下egrep的下载使用

最新文章

Sublime 32位 激活码

windows下载安装远程桌面工具RealVNC-Server教程(RealVNC_E4_6_1版带注册码)

【亲测免费】 抖音直播伴侣推流密钥获取工具使用教程

【亲测免费】 Proxifer 安装包与注册码

Royal TSX许可证密钥(6.x后所有版本都可以用)

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

responsive - How to exclude an image size from the Wordpress srcset

谷歌浏览器(chrome)在线翻译解决方式

【免费下载】游戏解包工具及教程

Sublime 32位激活码

【亲测免费】抖音直播伴侣推流密钥获取工具使用教程