Python爬虫入门案例详细教程-369IT编程

admin管理员组
文章数量:1033256

Python爬虫入门案例详细教程

刚入门的新手想要一个快速上手的爬虫案例。案例要简单易懂，步骤清晰，不需要复杂的设置。然后，考虑使用哪个库。Requests和BeautifulSoup是比较常见且容易上手的组合，适合静态页面。如果用户以后需要处理动态内容，可能需要提到Selenium或Scrapy，但作为入门案例，先保持简单。

接下来，找一个合适的网站作为例子。某网站电影Top250比较稳定，结构简单，适合练习。不过要提醒遵守robots.txt和版权问题，避免法律风险。

以下是一个适合快速上手的 Python 爬虫案例，使用 requests 和 BeautifulSoup 抓取豆瓣电影 Top250 的基本信息。代码简单易懂，适合新手快速理解爬虫流程。

环境准备

安装必要库： pip install requests beautifulsoup4

完整代码

代码语言：javascript代码运行次数：0运行复制

import requests
from bs4 import BeautifulSoup
import csv

# 1. 定义目标URL和请求头（模拟浏览器访问）
url = ";
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

# 2. 发送HTTP请求
response = requests.get(url, headers=headers)
response.encoding = "utf-8"  # 设置编码

# 3. 解析HTML内容
soup = BeautifulSoup(response.text, "html.parser")

# 4. 提取数据
movies = []
for item in soup.find_all("div", class_="item"):
    title = item.find("span", class_="title").text  # 电影标题
    rating = item.find("span", class_="rating_num").text  # 评分
    link = item.find("a")["href"]  # 详情页链接
    movies.append([title, rating, link])

# 5. 保存为CSV文件
with open("douban_top250.csv", "w", newline="", encoding="utf-8") as file:
    writer = csv.writer(file)
    writer.writerow(["Title", "Rating", "Link"])  # 表头
    writer.writerows(movies)

print("数据已保存到 douban_top250.csv！")

代码解析

请求头（Headers） 使用 User-Agent 模拟浏览器访问，避免被网站反爬虫拦截。
发送请求 requests.get() 发送 GET 请求，获取网页内容。
解析数据
- BeautifulSoup 解析 HTML 结构。
- find_all("div", class_="item") 定位电影条目。
- 通过 find() 方法提取标题、评分和链接。
保存数据 将数据写入 CSV 文件，方便后续分析。

运行结果

生成的 douban_top250.csv 文件内容示例：

代码语言：javascript代码运行次数：0运行复制

Title,Rating,Link
肖申克的救赎,9.7,/
霸王别姬,9.6,/
阿甘正传,9.5,/
...

扩展学习

分页爬取 修改 URL 为 ={0-225}，循环抓取全部25页数据。
处理动态内容 如果遇到动态加载的网站（如 JavaScript 渲染），可使用 Selenium 或 Scrapy-Splash。
反爬虫策略
- 添加随机延迟（如 time.sleep(1)）。
- 使用代理 IP（如 requests.get(proxies=proxy)）。
遵守规则
- 检查目标网站的 robots.txt（如 .txt）。
- 控制请求频率，避免对服务器造成压力。

通过这个案例，我们可以快速掌握爬虫的基本流程：发送请求 → 解析内容 → 提取数据 → 持久化存储。

Python爬虫入门案例详细教程

接下来，找一个合适的网站作为例子。某网站电影Top250比较稳定，结构简单，适合练习。不过要提醒遵守robots.txt和版权问题，避免法律风险。

环境准备

安装必要库： pip install requests beautifulsoup4

完整代码

代码语言：javascript代码运行次数：0运行复制

import requests
from bs4 import BeautifulSoup
import csv

# 1. 定义目标URL和请求头（模拟浏览器访问）
url = ";
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

# 2. 发送HTTP请求
response = requests.get(url, headers=headers)
response.encoding = "utf-8"  # 设置编码

# 3. 解析HTML内容
soup = BeautifulSoup(response.text, "html.parser")

# 4. 提取数据
movies = []
for item in soup.find_all("div", class_="item"):
    title = item.find("span", class_="title").text  # 电影标题
    rating = item.find("span", class_="rating_num").text  # 评分
    link = item.find("a")["href"]  # 详情页链接
    movies.append([title, rating, link])

# 5. 保存为CSV文件
with open("douban_top250.csv", "w", newline="", encoding="utf-8") as file:
    writer = csv.writer(file)
    writer.writerow(["Title", "Rating", "Link"])  # 表头
    writer.writerows(movies)

print("数据已保存到 douban_top250.csv！")

代码解析

请求头（Headers） 使用 User-Agent 模拟浏览器访问，避免被网站反爬虫拦截。
发送请求 requests.get() 发送 GET 请求，获取网页内容。
解析数据
- BeautifulSoup 解析 HTML 结构。
- find_all("div", class_="item") 定位电影条目。
- 通过 find() 方法提取标题、评分和链接。
保存数据 将数据写入 CSV 文件，方便后续分析。

运行结果

生成的 douban_top250.csv 文件内容示例：

代码语言：javascript代码运行次数：0运行复制

Title,Rating,Link
肖申克的救赎,9.7,/
霸王别姬,9.6,/
阿甘正传,9.5,/
...

扩展学习

分页爬取 修改 URL 为 ={0-225}，循环抓取全部25页数据。
处理动态内容 如果遇到动态加载的网站（如 JavaScript 渲染），可使用 Selenium 或 Scrapy-Splash。
反爬虫策略
- 添加随机延迟（如 time.sleep(1)）。
- 使用代理 IP（如 requests.get(proxies=proxy)）。
遵守规则
- 检查目标网站的 robots.txt（如 .txt）。
- 控制请求频率，避免对服务器造成压力。

通过这个案例，我们可以快速掌握爬虫的基本流程：发送请求 → 解析内容 → 提取数据 → 持久化存储。

本文标签： Python爬虫入门案例详细教程

版权声明：本文标题：Python爬虫入门案例详细教程内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1748015140a2241797.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

Python爬虫入门案例详细教程

Python爬虫入门案例详细教程

环境准备

完整代码

代码解析

运行结果

扩展学习

Python爬虫入门案例详细教程

环境准备

完整代码

代码解析

运行结果

扩展学习

更多相关文章

Python爬虫入门案例详细教程

发表评论

推荐文章

万能的前向声明碰到他竟然不行了

MCP正在悄悄改变商业格局！抓住这波红利，你也能躺赚！

布谷一对一直播源码android版环境配置流程及功能明细

BERT模型如何处理罕见单词

js中几种实用的跨域方法原理详解

热门文章

详解Windows（二）——系统版本号

瞧瞧别人家的日期处理，那叫一个优雅！

开始菜单增强工具Stardock Start11 v2.08

go中使用ssh

答案之书和源代码

荣耀笔记本装Win10系统攻略 找对方法很重要！

Linux基础之tar归档命令、zip压缩、gzip压缩、bzip2压缩

Apache Flink 分区算子Rescale剖析

监督、半监督、无监督和强化学习简介

CAN总线如何区分和识别帧类型

最新文章

.NET周刊【3月第3期 2025

幻兽帕鲁服务端性能优化mod

2025国内DevOps新手突围指南：从Gitee零门槛入门到工具链深度对比

AI的出现，如何判定程序员的水平高不高？

RAG从入门到放弃

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

荣耀笔记本装Win10系统攻略找对方法很重要！

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow