python爬虫之下载电影(不是爱奇艺腾讯视频等平台哈)-369IT编程

admin管理员组
文章数量:1130349

尝试在我的博客中添上程序流程图，如果画的有误或有修改意见请各位大佬提出，我会加以改进的

本程序的流程

准备工作

python安装完成
pycharm安装完成
lxml、asyncio、aiohttp、aiofiles第三方库安装完成，如果你卡在了这一步，我会写一篇关于python安装第三方库报错的博客

程序各个模块

返回页面源代码部分

def get_page_code(url):
    with requests.get(url) as resp:
        text =resp.text #获得页面的源代码
    print("已经获取到源代码") # 你不要这个也行，但是我看着没有任何提示语句的程序内心很慌张
    return text

获取第一层m3u8地址

找m3u8文件，直接在页面源代码中查找m3u8就行，查找快捷键：Ctrl+F
你就看到了这一行代码

让我们观察一下，m3u8地址在ifram标签中的src属性里面，我们要确认一下这个页面是否只有一个iframe标签，如果是直接全页面搜索iframe即可，经过查找发现，该页面只有一个iframe标签，那就好办了，这里你可以用xpath或者BeautifulSoup都可以，如果要用BeautifulSoup的话，需要在程序开头加上一句 from bs4 import BeautifulSoup即可，如果报错，评论区中告诉我，我尝试解决
但是这个m3u8文件的地址需要进行处理

上xpath(xpath不会的话我后期可能会写一篇博客)

def get_first_m3u8_url(code):
    tree = etree.HTML(code)#创建etree对象，由于这里是HTML所以就选HTML就行
    src = tree.xpath('//iframe/@src')[0]#//表示满页面的找ifame标签，@src表示获取iframe标签的src属性值，由于xpath返回的是一个列表，我们只要第一个，所以就是0
    # 到了这一步我们拿到了第一层m3u8文件的地址，但需要提取
    src= src.split("=")[1].strip('&id')# 真正的m3u8文件的地址在第二个元素中
    print("已经获取到了第一层m3u8的地址")
    return src

下载m3u8文件

在第二个函数中我们已经获得到了第一层m3u8文件的地址，但是真正的m3u8文件的地址实在第二层m3u8文件中
所以还要再处理一次

def download_m3u8_file(first_m3u8_file):

    print("正在下载第二层m3u8文件")
    second=  get_page_code(first_m3u8_file)
    root = first_m3u8_file.rsplit('/',3)[0]
    second = second.split()[-1]
    second = root+second#拼接第二层地址
    second_file = get_page_code(second)
    with open("m3u8.txt",mode="w",encoding='utf-8') as f:
           f.write(second_file)
    print("第二层m3u8文件下载完成")

下载文件

这是用协程来实现的两个函数，应该能看得懂

async def download_one(url, sem):
    async with sem:  # 这玩意叫信号量。 可以控制并发量， 目前看  运行稳定。 应该没啥问题
        for i in range(100):
            try:
                print(url, "开始工作")
                filename = url.split('/')[-1]  # 刚刚这里有问题
                async with aiohttp.ClientSession() as session:
                    async with session.get(url) as resp:
                        content = await resp.content.

尝试在我的博客中添上程序流程图，如果画的有误或有修改意见请各位大佬提出，我会加以改进的

本程序的流程

准备工作

python安装完成
pycharm安装完成
lxml、asyncio、aiohttp、aiofiles第三方库安装完成，如果你卡在了这一步，我会写一篇关于python安装第三方库报错的博客

程序各个模块

返回页面源代码部分

def get_page_code(url):
    with requests.get(url) as resp:
        text =resp.text #获得页面的源代码
    print("已经获取到源代码") # 你不要这个也行，但是我看着没有任何提示语句的程序内心很慌张
    return text

获取第一层m3u8地址

上xpath(xpath不会的话我后期可能会写一篇博客)

def get_first_m3u8_url(code):
    tree = etree.HTML(code)#创建etree对象，由于这里是HTML所以就选HTML就行
    src = tree.xpath('//iframe/@src')[0]#//表示满页面的找ifame标签，@src表示获取iframe标签的src属性值，由于xpath返回的是一个列表，我们只要第一个，所以就是0
    # 到了这一步我们拿到了第一层m3u8文件的地址，但需要提取
    src= src.split("=")[1].strip('&id')# 真正的m3u8文件的地址在第二个元素中
    print("已经获取到了第一层m3u8的地址")
    return src

下载m3u8文件

在第二个函数中我们已经获得到了第一层m3u8文件的地址，但是真正的m3u8文件的地址实在第二层m3u8文件中
所以还要再处理一次

def download_m3u8_file(first_m3u8_file):

    print("正在下载第二层m3u8文件")
    second=  get_page_code(first_m3u8_file)
    root = first_m3u8_file.rsplit('/',3)[0]
    second = second.split()[-1]
    second = root+second#拼接第二层地址
    second_file = get_page_code(second)
    with open("m3u8.txt",mode="w",encoding='utf-8') as f:
           f.write(second_file)
    print("第二层m3u8文件下载完成")

下载文件

这是用协程来实现的两个函数，应该能看得懂

async def download_one(url, sem):
    async with sem:  # 这玩意叫信号量。 可以控制并发量， 目前看  运行稳定。 应该没啥问题
        for i in range(100):
            try:
                print(url, "开始工作")
                filename = url.split('/')[-1]  # 刚刚这里有问题
                async with aiohttp.ClientSession() as session:
                    async with session.get(url) as resp:
                        content = await resp.content.

本文标签：爬虫腾讯下载电影平台视频

版权声明：本文标题：python爬虫之下载电影(不是爱奇艺腾讯视频等平台哈) 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://it.en369.cn/jiaocheng/1763906987a2970836.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

369IT编程

python爬虫之下载电影(不是爱奇艺腾讯视频等平台哈)

本程序的流程

准备工作

程序各个模块

返回页面源代码部分

获取第一层m3u8地址

下载m3u8文件

下载文件

本程序的流程

准备工作

程序各个模块

返回页面源代码部分

获取第一层m3u8地址

下载m3u8文件

下载文件

更多相关文章

原生Android手机管家,腾讯手机管家Android 7.13版更新 你的专属管家已上线

安卓最新版本_腾讯手机管家下载最新版本-腾讯手机管家2020新版本下载v8.8.1 安卓官方版...

Android手机安全软件的恶意程序检测靠谱吗--LBE安全大师、腾讯手机管家、360手机卫士恶意软件检测方法研究...

腾讯手机管家(pc版) for android,腾讯手机管家（PC版）for Android小技巧

adb 坑之第三方手机管家如腾讯统一360 刷机助手导致开发出现严重问题解决方案

最近腾讯手机管家a.gray.Bulimia.a病毒提示决解方案

仿腾讯手机管家快捷中心功能的实现方案

【腾讯TMQ】【测试左移专栏】手机管家PiTest测试左移实践

【HTML5】（360、联想、腾讯各类手机管家）旋转渐变条

LLMs之OpenAI DevDay 2025之ChatGPT之AppSDK：聊天即应用在对话中触发服务从对话到动作—ChatGPT 的新一代 App 平台与 SDK 战略

skype安卓手机版_安卓手机QQ 8.2.8内测版发布，视频通话支持美妆功能

腾讯QQ玩一玩入口今日开放，小游戏再增巨量平台！

腾讯IMA知识库PC端V1.9.1（移动端V1.6.1）深度测评（长图分享、笔记上传、网页版发布以及移动端支持语音输入）

星辰AI大模型一个解决你所有AI需求的智慧平台

12个你肯定会用上的视频素材网站,免费高清无水印

pp助手苹果版本_腾讯桌球安卓和苹果系统如何进28以及怎么解决没有金币时的烦恼...

基于STM32+微信小程序设计的环境监测系统（腾讯云IOT）

【下载工具】哔哩哔哩视频下载器——（Downkyi）下载姬v1.3.3

Python 爬虫，推荐一款简单的抓包工具

下载电影 php文件 迅雷9,迅雷9怎么下载看片？迅雷9正确找片找资源的多种方法...

发表评论

推荐文章

在AWS创建一台Windows主机并登录

分享通义ChatGPT实用技能123

大华视频服务器系统日志怎么看,日常工作中查看工控机Windows日志的方法

PerfDog-移动端性能测试-基本使用

Autopsy数字取证软件的下载安装（Windows）

热门文章

SGML简单语法

python操作windows窗口，python库pygetwindow使用详解

ceph cache teir配置模式以及参数说明

H.264、H.265 到 H.266：编码标准演进、RTSP支持与实时视频系统实战

C盘飘红的几种处理方式汇总

MNN：阿里开源的轻量级深度学习推理框架，支持在移动端等多种终端上运行，兼容主流的模型格式

darknet53.conv.74免费下载

java编程选游戏本还是轻薄本,编程用什么笔记本,超薄本还是游戏本

windows安装Tomcat8.5

硬件工程师如何高效研发-实战经验总结及11个核心经验分享

最新文章

Sublime 32位 激活码

windows下载安装远程桌面工具RealVNC-Server教程(RealVNC_E4_6_1版带注册码)

【亲测免费】 抖音直播伴侣推流密钥获取工具使用教程

【亲测免费】 Proxifer 安装包与注册码

Royal TSX许可证密钥(6.x后所有版本都可以用)

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

responsive - How to exclude an image size from the Wordpress srcset

原生Android手机管家,腾讯手机管家Android 7.13版更新你的专属管家已上线

下载电影 php文件迅雷9,迅雷9怎么下载看片？迅雷9正确找片找资源的多种方法...

Sublime 32位激活码

【亲测免费】抖音直播伴侣推流密钥获取工具使用教程