Python 爬虫如何伪装 Referer？从随机生成到动态匹配-369IT编程

admin管理员组
文章数量:1029145

Python 爬虫如何伪装 Referer？从随机生成到动态匹配

一、Referer 的作用与重要性

Referer 是 HTTP 请求头中的一个字段，用于标识请求的来源页面。它在网站的正常运行中扮演着重要角色，例如用于统计流量来源、防止恶意链接等。然而，对于爬虫来说，Referer 也可能成为被识别为爬虫的关键因素之一。许多网站会检查 Referer 字段，如果发现请求头中缺少 Referer 或者 Referer 的值不符合预期，网站可能会拒绝服务或者返回错误信息。

因此，伪装 Referer 成为了爬虫开发者的重要任务。通过合理地设置 Referer，可以降低爬虫被检测到的风险，提高数据采集的成功率。

二、随机生成 Referer

随机生成 Referer 是一种简单但有效的伪装方法。通过生成一些常见的、看似合法的 Referer 值，可以欺骗网站的反爬虫机制。以下是一个使用 Python 实现随机生成 Referer 的示例代码：

代码语言：javascript代码运行次数：0运行复制

import random

# 定义一些常见的 Referer 值
referer_list = [
    ";,
    ";,
    ";,
    ";,
    ";,
    ";,
    ";,
    "+爬虫",
    "+爬虫",
    "+爬虫",
    "+爬虫",
    "/?text=python+爬虫",
    "/?q=python+爬虫"
]

# 随机选择一个 Referer
def random_referer():
    return random.choice(referer_list)

# 使用 requests 库发送请求
import requests

def fetch_with_random_referer(url):
    headers = {
        "Referer": random_referer(),
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
    }
    response = requests.get(url, headers=headers)
    return response

# 测试
url = ";
response = fetch_with_random_referer(url)
print(response.status_code)
print(response.headers)

代码解析

定义 Referer 列表：我们定义了一个包含常见搜索引擎和搜索结果页面的 Referer 列表。这些 Referer 值看起来像是用户通过搜索引擎访问目标页面的来源。
随机选择 Referer：通过 random.choice() 方法从列表中随机选择一个 Referer 值。
发送请求：使用 requests 库发送 HTTP 请求时，将随机选择的 Referer 添加到请求头中。同时，我们还添加了一个常见的 User-Agent，以进一步伪装请求。

优点

简单易实现：随机生成 Referer 的方法非常简单，只需要定义一个 Referer 列表并随机选择即可。
成本低：不需要复杂的逻辑和额外的资源，适合初学者快速上手。

缺点

容易被识别：虽然随机生成的 Referer 可以欺骗一些简单的反爬虫机制，但对于复杂的网站，这种方法可能很容易被识别。因为随机生成的 Referer 可能与实际的用户行为模式不一致。

三、动态匹配 Referer

为了进一步提高伪装效果，我们可以采用动态匹配 Referer 的方法。动态匹配是指根据目标网站的页面结构和链接关系，动态生成合理的 Referer 值。这种方法需要对目标网站的结构进行分析，并根据实际的用户行为路径生成 Referer。

以下是一个动态匹配 Referer 的实现示例：

代码语言：javascript代码运行次数：0运行复制

import requests
from bs4 import BeautifulSoup

# 获取目标页面的链接
def get_links(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
    }
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, "html.parser")
    links = []
    for link in soup.find_all("a", href=True):
        links.append(link["href"])
    return links

# 动态生成 Referer
def dynamic_referer(url, links):
    # 选择一个与目标页面相关的链接作为 Referer
    referer = random.choice(links)
    if not referer.startswith("http"):
        referer = url + referer
    return referer

# 使用动态 Referer 发送请求
def fetch_with_dynamic_referer(url):
    links = get_links(url)
    referer = dynamic_referer(url, links)
    headers = {
        "Referer": referer,
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
    }
    response = requests.get(url, headers=headers)
    return response

# 测试
url = ";
response = fetch_with_dynamic_referer(url)
print(response.status_code)
print(response.headers)

代码解析

获取目标页面的链接：使用 requests 和 BeautifulSoup 库获取目标页面的 HTML 内容，并解析出页面中的所有链接。
动态生成 Referer：从获取到的链接列表中随机选择一个链接作为 Referer 值。如果链接是相对路径，则将其转换为绝对路径。
发送请求：将动态生成的 Referer 添加到请求头中，并发送请求。

优点

伪装效果更好：动态生成的 Referer 更符合实际的用户行为模式，因为它是根据目标页面的实际链接关系生成的。
适应性强：这种方法可以根据不同的目标网站动态调整 Referer，具有较强的适应性。

缺点

实现复杂：需要对目标网站的结构进行分析，并且需要解析 HTML 内容，实现成本较高。
性能问题：动态生成 Referer 的过程需要额外的网络请求和解析操作，可能会对爬虫的性能产生一定影响。

四、结合代理和 IP 池

除了伪装 Referer，结合代理和 IP 池可以进一步提高爬虫的伪装效果和稳定性。代理服务器可以隐藏爬虫的真实 IP 地址，而 IP 池可以提供多个代理 IP，避免因频繁访问而被封禁。

以下是一个结合代理和 IP 池的实现示例：

代码语言：javascript代码运行次数：0运行复制

import random
import requests
from requests.auth import HTTPProxyAuth

# 定义代理服务器信息
proxyHost = "www.16yun"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

# 构造代理地址
proxy_url = f"http://{proxyHost}:{proxyPort}"

# 定义代理认证信息
proxy_auth = HTTPProxyAuth(proxyUser, proxyPass)

# 动态生成 Referer（假设 get_links 和 dynamic_referer 函数已定义）
def get_links(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
    }
    response = requests.get(url, headers=headers, proxies={"http": proxy_url, "https": proxy_url}, auth=proxy_auth)
    soup = BeautifulSoup(response.text, "html.parser")
    links = []
    for link in soup.find_all("a", href=True):
        links.append(link["href"])
    return links

def dynamic_referer(url, links):
    referer = random.choice(links)
    if not referer.startswith("http"):
        referer = url + referer
    return referer

# 使用动态 Referer 和代理发送请求
def fetch_with_proxy_and_referer(url):
    links = get_links(url)
    referer = dynamic_referer(url, links)
    headers = {
        "Referer": referer,
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
    }
    proxies = {
        "http": proxy_url,
        "https": proxy_url
    }
    response = requests.get(url, headers=headers, proxies=proxies, auth=proxy_auth)
    return response

# 测试
url = ";
response = fetch_with_proxy_and_referer(url)
print(response.status_code)
print(response.headers)

代码解析

定义代理 IP 池：定义一个包含多个代理 IP 的列表。
随机选择代理：通过 random.choice() 方法从代理 IP 池中随机选择一个代理。
发送请求：将动态生成的 Referer 和随机选择的代理添加到请求中，并发送请求。

优点

伪装效果更强：结合代理和 IP 池可以同时隐藏爬虫的真实 IP 地址和伪装 Referer，大大提高了伪装效果。
稳定性更高：使用 IP 池可以避免因频繁访问而被封禁，提高了爬虫的稳定性。

总结

伪装 Referer 是 Python 爬虫中应对反爬虫机制的重要手段之一。通过随机生成 Referer 和动态匹配 Referer，可以有效降低爬虫被检测到的风险。结合代理和 IP 池，可以进一步提高爬虫的伪装效果和稳定性。在实际应用中，开发者需要根据目标网站的反爬虫机制和自身的需求，选择合适的伪装方法。

Python 爬虫如何伪装 Referer？从随机生成到动态匹配

一、Referer 的作用与重要性

因此，伪装 Referer 成为了爬虫开发者的重要任务。通过合理地设置 Referer，可以降低爬虫被检测到的风险，提高数据采集的成功率。

二、随机生成 Referer

代码语言：javascript代码运行次数：0运行复制

import random

# 定义一些常见的 Referer 值
referer_list = [
    ";,
    ";,
    ";,
    ";,
    ";,
    ";,
    ";,
    "+爬虫",
    "+爬虫",
    "+爬虫",
    "+爬虫",
    "/?text=python+爬虫",
    "/?q=python+爬虫"
]

# 随机选择一个 Referer
def random_referer():
    return random.choice(referer_list)

# 使用 requests 库发送请求
import requests

def fetch_with_random_referer(url):
    headers = {
        "Referer": random_referer(),
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
    }
    response = requests.get(url, headers=headers)
    return response

# 测试
url = ";
response = fetch_with_random_referer(url)
print(response.status_code)
print(response.headers)

代码解析

定义 Referer 列表：我们定义了一个包含常见搜索引擎和搜索结果页面的 Referer 列表。这些 Referer 值看起来像是用户通过搜索引擎访问目标页面的来源。
随机选择 Referer：通过 random.choice() 方法从列表中随机选择一个 Referer 值。
发送请求：使用 requests 库发送 HTTP 请求时，将随机选择的 Referer 添加到请求头中。同时，我们还添加了一个常见的 User-Agent，以进一步伪装请求。

优点

简单易实现：随机生成 Referer 的方法非常简单，只需要定义一个 Referer 列表并随机选择即可。
成本低：不需要复杂的逻辑和额外的资源，适合初学者快速上手。

缺点

容易被识别：虽然随机生成的 Referer 可以欺骗一些简单的反爬虫机制，但对于复杂的网站，这种方法可能很容易被识别。因为随机生成的 Referer 可能与实际的用户行为模式不一致。

三、动态匹配 Referer

以下是一个动态匹配 Referer 的实现示例：

代码语言：javascript代码运行次数：0运行复制

import requests
from bs4 import BeautifulSoup

# 获取目标页面的链接
def get_links(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
    }
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, "html.parser")
    links = []
    for link in soup.find_all("a", href=True):
        links.append(link["href"])
    return links

# 动态生成 Referer
def dynamic_referer(url, links):
    # 选择一个与目标页面相关的链接作为 Referer
    referer = random.choice(links)
    if not referer.startswith("http"):
        referer = url + referer
    return referer

# 使用动态 Referer 发送请求
def fetch_with_dynamic_referer(url):
    links = get_links(url)
    referer = dynamic_referer(url, links)
    headers = {
        "Referer": referer,
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
    }
    response = requests.get(url, headers=headers)
    return response

# 测试
url = ";
response = fetch_with_dynamic_referer(url)
print(response.status_code)
print(response.headers)

代码解析

获取目标页面的链接：使用 requests 和 BeautifulSoup 库获取目标页面的 HTML 内容，并解析出页面中的所有链接。
动态生成 Referer：从获取到的链接列表中随机选择一个链接作为 Referer 值。如果链接是相对路径，则将其转换为绝对路径。
发送请求：将动态生成的 Referer 添加到请求头中，并发送请求。

优点

伪装效果更好：动态生成的 Referer 更符合实际的用户行为模式，因为它是根据目标页面的实际链接关系生成的。
适应性强：这种方法可以根据不同的目标网站动态调整 Referer，具有较强的适应性。

缺点

实现复杂：需要对目标网站的结构进行分析，并且需要解析 HTML 内容，实现成本较高。
性能问题：动态生成 Referer 的过程需要额外的网络请求和解析操作，可能会对爬虫的性能产生一定影响。

四、结合代理和 IP 池

以下是一个结合代理和 IP 池的实现示例：

代码语言：javascript代码运行次数：0运行复制

import random
import requests
from requests.auth import HTTPProxyAuth

# 定义代理服务器信息
proxyHost = "www.16yun"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

# 构造代理地址
proxy_url = f"http://{proxyHost}:{proxyPort}"

# 定义代理认证信息
proxy_auth = HTTPProxyAuth(proxyUser, proxyPass)

# 动态生成 Referer（假设 get_links 和 dynamic_referer 函数已定义）
def get_links(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
    }
    response = requests.get(url, headers=headers, proxies={"http": proxy_url, "https": proxy_url}, auth=proxy_auth)
    soup = BeautifulSoup(response.text, "html.parser")
    links = []
    for link in soup.find_all("a", href=True):
        links.append(link["href"])
    return links

def dynamic_referer(url, links):
    referer = random.choice(links)
    if not referer.startswith("http"):
        referer = url + referer
    return referer

# 使用动态 Referer 和代理发送请求
def fetch_with_proxy_and_referer(url):
    links = get_links(url)
    referer = dynamic_referer(url, links)
    headers = {
        "Referer": referer,
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
    }
    proxies = {
        "http": proxy_url,
        "https": proxy_url
    }
    response = requests.get(url, headers=headers, proxies=proxies, auth=proxy_auth)
    return response

# 测试
url = ";
response = fetch_with_proxy_and_referer(url)
print(response.status_code)
print(response.headers)

代码解析

定义代理 IP 池：定义一个包含多个代理 IP 的列表。
随机选择代理：通过 random.choice() 方法从代理 IP 池中随机选择一个代理。
发送请求：将动态生成的 Referer 和随机选择的代理添加到请求中，并发送请求。

优点

伪装效果更强：结合代理和 IP 池可以同时隐藏爬虫的真实 IP 地址和伪装 Referer，大大提高了伪装效果。
稳定性更高：使用 IP 池可以避免因频繁访问而被封禁，提高了爬虫的稳定性。

总结

本文标签： Python 爬虫如何伪装 Referer从随机生成到动态匹配

版权声明：本文标题：Python 爬虫如何伪装 Referer？从随机生成到动态匹配内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1747574087a2180096.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

Python 爬虫如何伪装 Referer？从随机生成到动态匹配

Python 爬虫如何伪装 Referer？从随机生成到动态匹配

一、Referer 的作用与重要性

二、随机生成 Referer

代码解析

优点

缺点

三、动态匹配 Referer

代码解析

优点

缺点

四、结合代理和 IP 池

代码解析

优点

总结

Python 爬虫如何伪装 Referer？从随机生成到动态匹配

一、Referer 的作用与重要性

二、随机生成 Referer

代码解析

优点

缺点

三、动态匹配 Referer

代码解析

优点

缺点

四、结合代理和 IP 池

代码解析

优点

总结

更多相关文章

Python 爬虫如何伪装 Referer？从随机生成到动态匹配

发表评论

推荐文章

javascript - Undefined is not a function this.setState - Stack Overflow

Javascript: Passing variable to function breaks function - Stack Overflow

flutter - UDP on Windows never receive message - Stack Overflow

How to add javascript library or packages in cordova? - Stack Overflow

How to use same theme template for multiple taxonomy terms?

热门文章

c# - Problem writing to a Control from another class and another thread - Stack Overflow

css - Hide pages from the main menu

plotly - A sunburst plot produced by R&#39;s plot_ly function shows a blank page - Stack Overflow

ios - Shape not re-animating in SwiftUI - Stack Overflow

​.NET AI模板 Preview 2发布：集成.NET Aspire和Qdrant向量数据库，助您快速构建云原生 AI 应用

WebGIS 开发框架的调试工具

AI算力革命驱动光模块产业跃迁：800G规模化部署与1.6T技术竞速下的市场新纪元

Python新加坡房产交易数据预测：神经网络MLP、回归、指数平滑模型与特征交互探索

“由于启动计算机时出现了页面文件配置问题，Windows在你的计算机上创建了一个临时页面文件。。。”的问题解决

在VMware虚拟机中安装Windows 7全攻略（避坑指南）

最新文章

win10激活 错误代码0x80070424

初识Redis · C++客户端set和zset

小马激活工具出现Cannot open file k:OEMSF 的解决方法

用 Transformers + Diffusers 部署 AI 图像生成服务（含 Stable Diffusion 报错处理大全）

AI版权全球治理观察

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

plotly - A sunburst plot produced by R's plot_ly function shows a blank page - Stack Overflow

.NET AI模板 Preview 2发布：集成.NET Aspire和Qdrant向量数据库，助您快速构建云原生 AI 应用

win10激活错误代码0x80070424

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow