2024年最新分享Python7个爬虫小案例（附源码）-369IT编程

admin管理员组
文章数量:1130349

在这篇文章中，我们将分享7个Python爬虫的小案例，帮助大家更好地学习和了解Python爬虫的基础知识。以下是每个案例的简介和源代码：

1. 爬取豆瓣电影Top250

这个案例使用BeautifulSoup库爬取豆瓣电影Top250的电影名称、评分和评价人数等信息，并将这些信息保存到CSV文件中。

import requests
from bs4 import BeautifulSoup
import csv

# 请求URL
url = '<https://movie.douban/top250>'
# 请求头部
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}

# 解析页面函数
def parse_html(html):
    soup = BeautifulSoup(html, 'lxml')
    movie_list = soup.find('ol', class_='grid_view').find_all('li')
    for movie in movie_list:
        title = movie.find('div', class_='hd').find('span', class_='title').get_text()
        rating_num = movie.find('div', class_='star').find('span', class_='rating_num').get_text()
        comment_num = movie.find('div', class_='star').find_all('span')[-1].get_text()
        writer.writerow([title, rating_num, comment_num])

# 保存数据函数
def save_data():
    f = open('douban_movie_top250.csv', 'a', newline='', encoding='utf-8-sig')
    global writer
    writer = csv.writer(f)
    writer.writerow(['电影名称', '评分', '评价人数'])
    for i in range(10):
        url = '<https://movie.douban/top250?start=>' + str(i*25) + '&filter='
        response = requests.get(url, headers=headers)
        parse_html(response.text)
    f.close()

if __name__ == '__main__':
    save_data()

2. 爬取猫眼电影Top100

这个案例使用正则表达式和requests库爬取猫眼电影Top100的电影名称、主演和上映时间等信息，并将这些信息保存到TXT文件中。

import requests
import re

# 请求URL
url = '<https://maoyan/board/4>'
# 请求头部
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}

# 解析页面函数
def parse_html(html):
    pattern = repile('<p ><a href=".*?" title="(.*?)" data-act="boarditem-click" data-val="{movieId:\\\\d+}">(.*?)</a></p>.*?<p >(.*?)</p>.*?<p >(.*?)</p>', re.S)
    items = re.findall(pattern, html)
    for item in items:
        yield {

在这篇文章中，我们将分享7个Python爬虫的小案例，帮助大家更好地学习和了解Python爬虫的基础知识。以下是每个案例的简介和源代码：

1. 爬取豆瓣电影Top250

这个案例使用BeautifulSoup库爬取豆瓣电影Top250的电影名称、评分和评价人数等信息，并将这些信息保存到CSV文件中。

import requests
from bs4 import BeautifulSoup
import csv

# 请求URL
url = '<https://movie.douban/top250>'
# 请求头部
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}

# 解析页面函数
def parse_html(html):
    soup = BeautifulSoup(html, 'lxml')
    movie_list = soup.find('ol', class_='grid_view').find_all('li')
    for movie in movie_list:
        title = movie.find('div', class_='hd').find('span', class_='title').get_text()
        rating_num = movie.find('div', class_='star').find('span', class_='rating_num').get_text()
        comment_num = movie.find('div', class_='star').find_all('span')[-1].get_text()
        writer.writerow([title, rating_num, comment_num])

# 保存数据函数
def save_data():
    f = open('douban_movie_top250.csv', 'a', newline='', encoding='utf-8-sig')
    global writer
    writer = csv.writer(f)
    writer.writerow(['电影名称', '评分', '评价人数'])
    for i in range(10):
        url = '<https://movie.douban/top250?start=>' + str(i*25) + '&filter='
        response = requests.get(url, headers=headers)
        parse_html(response.text)
    f.close()

if __name__ == '__main__':
    save_data()

2. 爬取猫眼电影Top100

这个案例使用正则表达式和requests库爬取猫眼电影Top100的电影名称、主演和上映时间等信息，并将这些信息保存到TXT文件中。

import requests
import re

# 请求URL
url = '<https://maoyan/board/4>'
# 请求头部
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}

# 解析页面函数
def parse_html(html):
    pattern = repile('<p ><a href=".*?" title="(.*?)" data-act="boarditem-click" data-val="{movieId:\\\\d+}">(.*?)</a></p>.*?<p >(.*?)</p>.*?<p >(.*?)</p>', re.S)
    items = re.findall(pattern, html)
    for item in items:
        yield {

本文标签：爬虫源码案例最新

版权声明：本文标题：2024年最新分享Python7个爬虫小案例（附源码）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://it.en369.cn/jiaocheng/1754349617a2675955.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

2024年最新渗透测试流程-全(仅供学习，知识分享)_渗透测试教程，2024年最新2024软件测试大厂面试经验

1月前

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上软件测试知识点，真正体系化！ 由于文件比较多&

基于YOLO11深度学习的边坡护坡山坡滑坡检测系统【Python源码+Pyqt5界面+数据集+安装使用教程+训练代码】【附下载链接】

1月前

文章目录引言软件主界面源码目录文件说明一、环境安装(1)安装python(2)安装软件所需的依赖库二、软件核心功能介绍及效果演示(1)软件核心功能(2)软件效果演示三、模型的训练、评估与推理(1)数据集准备与训练(2)训练结果评估(3

java dht 爬虫_DHT爬虫（golang版-附源码）

1月前

前言简介 DHT爬虫要做的事情，首先就是要加入到DHT网络中，这样就会源源不断收到其他节点发过来的请求，然后从中获取种子的hash值。那么问题来了 1: 怎么加入到DHT网络中？ 2: 怎么让其他节点给你发消息？ 3: 哪些请求里面包含

MySQL 临时表Using temporary案例详解及优化解决方案

1月前

目录一、场景案例二、什么是内部临时表？三、哪些场景会使用内部临时表？四、内部临时表如何存储？五、如何优化内部临时表？六、总结在之前的文章《一条SQL使用order by，引发IO问题》中，针对Using Files

Win11最新专业纯净版深度解析与优化指南

1月前

Win11最新专业纯净版深度解析与优化指南在微软不断推进Windows操作系统更新的背景下，Win11以其全新的界面设计、增强的安全性和出色的性能表现，赢得了广大用户的青睐。本文将为大家介绍一款基于微软官方最新Windows 11 22

精品H5小游戏源码-免费下载

1月前

精品H5小游戏源码3D立体拼图、2048、hextris、HTML5实现会跳舞的3D立方体、见缝插针、切水果、人从哪里来物种进化、无尽河流、五子棋、消消乐、一个都不能死、一个魔方、永不放弃下载地址:https:download.cs

精仿腾讯视频php源码开源免安装版，自动采集

1月前

简介： 精仿腾讯视频源码开源-勇哥资源网分享，自动采集，强大搜索功能，采用PHP实时抓取可用资源，程序运行非常快速&#x

使用爬虫下载会议视频

1月前

大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若

类似腾讯手机管家应用源码完整版

1月前

类似腾讯手机管家应用源码，也是自己写的android手机管家，内附源代码，应用实现了手机防功能，通信卫士功能，软件管家&#

分享2024年12月份最新的小米电脑管家安装包

1月前

简单介绍一下这个小米电脑管家的作用，是可以在小米手机上和非小米电脑的Windows系统上实现文件互传和利用电脑操作手机屏幕现在大多数的小米电脑管家安装包已经失效了，这里分享2024年12月25号最

ceph分层机制中缓存读写流程源码分析

1月前

前言本文从ceph源码角度详细讲ceph cache tier机制中缓存层读写逻辑和实现过程，源码环境如下：ceph版本：14.2.22PrimaryLogPG::do_

postgresql源码学习（54）—— HotStandby从库必须设置大于等于主库的参数

1月前

下午做题遇到一个这样的问题，之前没太关注过，打算学习学习，避免主从配置踩坑。题干搜一搜，没搜出啥有用的玩意…渣翻成英文搜一搜，搜

AI仿站源码教程

1月前

AI仿站源码教程随着AI技术的不断发展，仿站技术已经越来越成熟，通过AI一键仿站，开发者们可以更快速、更高效地搭建网站。传统的前端开发过程中，需要大量

【ChatGPT实战案例】ChatGPT快速生成短视频

1月前

目录使用工具实现方法（任选一种）使用步骤方法1示例：ChatGPT+百度AIGC 方法2示例：ChatGPT+剪映使用工具 - ChatGPT - 剪映：手机or电脑应用商场下载app - 百度AIGC：度加

卡巴斯基最新激活码，卡巴斯基免费下载

1月前

更新信息： 适用版本：卡巴斯基kis,kav(2010,2009,7.0)激活方式：授权许可文件key激活程序 2009年10月14号测试，大家放心

这是网络工程师最详细的必备软件整理，附最新安装包

1月前

鱼乘于水，鸟乘于风，草木乘于时。“鱼是凭借着水的力量才能游动，鸟是凭借风的力量才能飞翔，花草树木是凭借着季节的变化而生长。”古人早就告诉过我们&

爬虫-抖音无水印视频下载

1月前

直接撸代码，复制即用import reimport requestsclass Douyin:def __init__(self,url):"""初始化:param url: 用手机分

【2021819-最新教程】Windows安装MongoDB及配置（超详细）

1月前

Windows安装MongoDB及服务配置1. 下载 MongoDB2. 安装 MongoDB3. 配置环境变量4. 创建数据库文件的存放位置5. 启动MongoDB服务6. 配置本地Windows MongoDB服务7. 总结1. 下载

369IT编程

2024年最新分享Python7个爬虫小案例（附源码）

1. 爬取豆瓣电影Top250

2. 爬取猫眼电影Top100

1. 爬取豆瓣电影Top250

2. 爬取猫眼电影Top100

更多相关文章

2024年最新渗透测试流程-全(仅供学习，知识分享)_渗透测试教程，2024年最新2024软件测试大厂面试经验

基于YOLO11深度学习的边坡护坡山坡滑坡检测系统【Python源码+Pyqt5界面+数据集+安装使用教程+训练代码】【附下载链接】

java dht 爬虫_DHT爬虫（golang版-附源码）

MySQL 临时表Using temporary案例详解及优化解决方案

Win11最新专业纯净版深度解析与优化指南

精品H5小游戏源码-免费下载

精仿腾讯视频php源码开源免安装版，自动采集

使用爬虫下载会议视频

类似腾讯手机管家应用源码完整版

分享2024年12月份最新的小米电脑管家安装包

最新Sql Promote 9安装使用教程及破解工具分享

ceph分层机制中缓存读写流程源码分析

postgresql源码学习（54）—— HotStandby从库必须设置大于等于主库的参数

AI仿站源码教程

【ChatGPT实战案例】ChatGPT快速生成短视频

卡巴斯基最新激活码，卡巴斯基免费下载

这是网络工程师最详细的必备软件整理，附最新安装包

爬虫-抖音无水印视频下载

最新2020版IDEA下载安装教程

【2021819-最新教程】Windows安装MongoDB及配置（超详细）

发表评论

推荐文章

manjaro下安装QQ、TIM、微信（可输入中文）

【免费下载】 飞狼线切割工具箱：CAD线切割插件的革命性选择

大前端开发：前端如何开发 APP

zotero-pdf2zh：Zotero中文翻译插件，让英文文献阅读无障碍

8550u matlab,某宝上出自深圳的 8550u8650u 迷你主机到底如何?我加了 32G 内存+1.5T 固态后的使用体验...

热门文章

发视频撸收益，软件无脑批量剪辑，第一天发第二天就有钱

android 电视qq视频,腾讯视频电视版安

manjaro下安装QQ、TIM、微信（可输入中文）

uni-app小程序，ChatGPT打字机效果实现

绝对实操：ChatGPT API + 自动化提高生产力+变现23 分钟前

deepin linux 卸载搜狗,在Deepin v20下搜狗输入法有依赖不足等问题，但有解决办法...

锐捷交换机-管理密码清除-保存配置方式密码清除

MySQL镜像下载及启动

夏天来了！是时候为你的笔记本换上比硅脂更易用的相变片了！

为什么我要开发一个ew-vue-component？

最新文章

Sublime 32位 激活码

windows下载安装远程桌面工具RealVNC-Server教程(RealVNC_E4_6_1版带注册码)

【亲测免费】 抖音直播伴侣推流密钥获取工具使用教程

【亲测免费】 Proxifer 安装包与注册码

Royal TSX许可证密钥(6.x后所有版本都可以用)

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

responsive - How to exclude an image size from the Wordpress srcset

【免费下载】飞狼线切割工具箱：CAD线切割插件的革命性选择

Sublime 32位激活码

【亲测免费】抖音直播伴侣推流密钥获取工具使用教程