【GUI软件】用python开发油管博主红人采集工具，一键批量爬取，含国家、邮箱等-369IT编程

admin管理员组
文章数量:1029900

【GUI软件】用python开发油管博主红人采集工具，一键批量爬取，含国家、邮箱等

本软件工具仅限于学术交流使用，严格遵循相关法律法规，符合平台内容合法合规性，禁止用于任何商业用途！

一、背景分析

1.1 开发背景

爬取目标-油管博主

大家都知道，YouTube（以下简称油管）是全球最大的在线视频社交平台，拥有亿万用户和庞大的日活跃用户群体。平台上来自不同国家和地区的创作者们，蕴藏着巨大的商业潜力。通过分析油管的用户数据，客户能够更深入地掌握这些创作者的最新动态和商业价值，从而更有效地推动业务合作。

所以，我用python开发了个爬虫工具，起名叫"爬油管博主软件"，如下。

1.2 软件界面

软件界面，如下：软件运行中截图

1.3 结果展示

爬取结果1：（字段太多，可能看不清）爬取结果抽查

爬取结果2：（清晰版）

docs.qq/sheet/DVEFhZlFKR1NXVEdN?tab=ht1er

1.4 演示视频

小破站视频：原文

1.5 软件说明

几点重要说明，请详读了解：

代码语言：txt复制

1. Windows用户可直接双击打开exe使用，无需安装Python，非常方便！
2. 软件通过模拟浏览器爬取，能有效规避对端反爬
3. 支持筛选：地区(多)和粉丝数范围
4. 支持多个的设置项有：搜索关键词、国家地区
5. 爬取过程中，每爬一条，存一次csv。并非爬完最后一次性保存，防止因异常中断导致丢失前面的数据（每条间隔1~2s）
6. 爬取过程中，有log文件详细记录运行过程，方便定位
7. 爬取过程中，博主筛选同时进行。并非全部博主爬完再一次性筛选，效率较高！ 
8. 博主csv含16个核心字段：搜索关键词,视频标题,视频链接,当前视频播放数,博主名称,博主链接,国家,telegram链接,whatsapp链接,twitter链接,facebook链接,instagram链接,粉丝数,视频总数,总观看次数,邮箱。

二、主要技术

软件全部模块采用python语言开发，主要分工如下：

代码语言：python代码运行次数：0运行复制

tkinter：GUI软件界面  
selenium：爬虫请求  
json：解析响应数据  
csv：保存csv结果、数据清洗  
logging：日志记录

python主要实现逻辑：

2.1 软件界面

软件主体界面采用tkinter开发，tkinter是Python的标准图形用户界面（GUI）工具包，允许创建窗口、对话框、按钮等桌面应用程序的组件。tkinter内置于Python中，因此无需额外安装任何库即可使用它。

部分代码实现：

代码语言：python代码运行次数：0运行复制

# 创建主窗口
root = tk.Tk()
root.title('YouTube博主采集软件v1.0')
# 设置窗口大小
root.minsize(width=900, height=650)
# 搜索关键词
tk.Label(root, text='搜索关键词:').place(x=30, y=130)
query = tk.StringVar()
query.set('')
entry = tk.Entry(root, bg='#ffffff', width=80, textvariable=query)
entry.place(x=110, y=130, anchor='nw')  # 摆放位置
tk.Label(root, justify='left', fg='red', text='多关键词以|分隔').place(x=650, y=130)

2.2 爬虫模块

爬虫采用selenium模拟浏览器操作发送请求。

初始化浏览器部分：

代码语言：python代码运行次数：0运行复制

# 初始化浏览器
chrome_driver = './chromedriver.exe'  # 浏览器驱动
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--mute-audio')
browser = webdriver.Chrome(executable_path=chrome_driver, options=chrome_options)
wait = WebDriverWait(browser, 10)
self.tk_show('\n开始爬取关键词[{}]，浏览器初始化中，请等待..\n'.format(keyword))
# 开始爬取
js = 'window.open("={}");'.format(quote(keyword))
browser.execute_script(js)

解析博主所在国家代码：

代码语言：python代码运行次数：0运行复制

# 国家
try:
	country = browser.find_element(By.XPATH,
								   '//*[@icon="privacy_public"]/../../td[2]').text
except:
	country = ''
if country_list != ['']:  # 国家不是空
	if country not in country_list and country not in country_list2:
		self.tk_show('国家地区是[{}], 不满足指定国家地区:{}, 跳过!'.format(country, country_list))
		browser.close()
		browser.switch_to.window(handles[-2])
		continue

三、功能介绍

3.1 配置chromedriver

开始采集前，先安装最新版Chrome浏览器，再配置对应版本的chromedriver驱动:

chromedriver下载说明：docs.qq/doc/DVFZNdk91eGV0cVRH

3.2 采集软件

配置好chromedriver后，打开youtube_user.exe软件，登录用户：

软件登录界面

并在主界面填写爬取条件：设置爬取条件

点击开始执行按钮进行采集。

四、软件发布

软件首发于微信众公号 "老男孩的平凡之路"，仅限于学术交流技术探讨，请勿用于商业用途，欢迎在遵守相关规则和法律的前提下交流探讨！

【GUI软件】用python开发油管博主红人采集工具，一键批量爬取，含国家、邮箱等

本软件工具仅限于学术交流使用，严格遵循相关法律法规，符合平台内容合法合规性，禁止用于任何商业用途！

一、背景分析

1.1 开发背景

爬取目标-油管博主

所以，我用python开发了个爬虫工具，起名叫"爬油管博主软件"，如下。

1.2 软件界面

软件界面，如下：软件运行中截图

1.3 结果展示

爬取结果1：（字段太多，可能看不清）爬取结果抽查

爬取结果2：（清晰版）

docs.qq/sheet/DVEFhZlFKR1NXVEdN?tab=ht1er

1.4 演示视频

小破站视频：原文

1.5 软件说明

几点重要说明，请详读了解：

代码语言：txt复制

1. Windows用户可直接双击打开exe使用，无需安装Python，非常方便！
2. 软件通过模拟浏览器爬取，能有效规避对端反爬
3. 支持筛选：地区(多)和粉丝数范围
4. 支持多个的设置项有：搜索关键词、国家地区
5. 爬取过程中，每爬一条，存一次csv。并非爬完最后一次性保存，防止因异常中断导致丢失前面的数据（每条间隔1~2s）
6. 爬取过程中，有log文件详细记录运行过程，方便定位
7. 爬取过程中，博主筛选同时进行。并非全部博主爬完再一次性筛选，效率较高！ 
8. 博主csv含16个核心字段：搜索关键词,视频标题,视频链接,当前视频播放数,博主名称,博主链接,国家,telegram链接,whatsapp链接,twitter链接,facebook链接,instagram链接,粉丝数,视频总数,总观看次数,邮箱。

二、主要技术

软件全部模块采用python语言开发，主要分工如下：

代码语言：python代码运行次数：0运行复制

tkinter：GUI软件界面  
selenium：爬虫请求  
json：解析响应数据  
csv：保存csv结果、数据清洗  
logging：日志记录

python主要实现逻辑：

2.1 软件界面

部分代码实现：

代码语言：python代码运行次数：0运行复制

# 创建主窗口
root = tk.Tk()
root.title('YouTube博主采集软件v1.0')
# 设置窗口大小
root.minsize(width=900, height=650)
# 搜索关键词
tk.Label(root, text='搜索关键词:').place(x=30, y=130)
query = tk.StringVar()
query.set('')
entry = tk.Entry(root, bg='#ffffff', width=80, textvariable=query)
entry.place(x=110, y=130, anchor='nw')  # 摆放位置
tk.Label(root, justify='left', fg='red', text='多关键词以|分隔').place(x=650, y=130)

2.2 爬虫模块

爬虫采用selenium模拟浏览器操作发送请求。

初始化浏览器部分：

代码语言：python代码运行次数：0运行复制

# 初始化浏览器
chrome_driver = './chromedriver.exe'  # 浏览器驱动
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--mute-audio')
browser = webdriver.Chrome(executable_path=chrome_driver, options=chrome_options)
wait = WebDriverWait(browser, 10)
self.tk_show('\n开始爬取关键词[{}]，浏览器初始化中，请等待..\n'.format(keyword))
# 开始爬取
js = 'window.open("={}");'.format(quote(keyword))
browser.execute_script(js)

解析博主所在国家代码：

代码语言：python代码运行次数：0运行复制

# 国家
try:
	country = browser.find_element(By.XPATH,
								   '//*[@icon="privacy_public"]/../../td[2]').text
except:
	country = ''
if country_list != ['']:  # 国家不是空
	if country not in country_list and country not in country_list2:
		self.tk_show('国家地区是[{}], 不满足指定国家地区:{}, 跳过!'.format(country, country_list))
		browser.close()
		browser.switch_to.window(handles[-2])
		continue

三、功能介绍

3.1 配置chromedriver

开始采集前，先安装最新版Chrome浏览器，再配置对应版本的chromedriver驱动:

chromedriver下载说明：docs.qq/doc/DVFZNdk91eGV0cVRH

3.2 采集软件

配置好chromedriver后，打开youtube_user.exe软件，登录用户：

软件登录界面

并在主界面填写爬取条件：设置爬取条件

点击开始执行按钮进行采集。

四、软件发布

软件首发于微信众公号 "老男孩的平凡之路"，仅限于学术交流技术探讨，请勿用于商业用途，欢迎在遵守相关规则和法律的前提下交流探讨！

本文标签： GUI软件用python开发油管博主红人采集工具，一键批量爬取，含国家邮箱等

版权声明：本文标题：【GUI软件】用python开发油管博主红人采集工具，一键批量爬取，含国家、邮箱等内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1747619070a2194197.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

【GUI软件】用python开发油管博主红人采集工具，一键批量爬取，含国家、邮箱等

【GUI软件】用python开发油管博主红人采集工具，一键批量爬取，含国家、邮箱等

一、背景分析

1.1 开发背景

1.2 软件界面

1.3 结果展示

1.4 演示视频

1.5 软件说明

二、主要技术

2.1 软件界面

2.2 爬虫模块

三、功能介绍

3.1 配置chromedriver

3.2 采集软件

四、软件发布

【GUI软件】用python开发油管博主红人采集工具，一键批量爬取，含国家、邮箱等

一、背景分析

1.1 开发背景

1.2 软件界面

1.3 结果展示

1.4 演示视频

1.5 软件说明

二、主要技术

2.1 软件界面

2.2 爬虫模块

三、功能介绍

3.1 配置chromedriver

3.2 采集软件

四、软件发布

更多相关文章

【GUI软件】用python开发油管博主红人采集工具，一键批量爬取，含国家、邮箱等

发表评论

推荐文章

javascript - Using wait with selenium web driver async content - Stack Overflow

No errors in the console but Ajax call doesn&#39;t seem to be working

javascript - Image src relative path to absolute path - Stack Overflow

深入了解Linux系统—— 环境变量

扣子空间的系统提示词

热门文章

php - current-post-parent for custom post type

menus - How to have the Header show different content on different pages?

css - Angular (18) Material Tooltip - how to addcustomize border? - Stack Overflow

jquery - HTML order of loading content and JavaScript - Stack Overflow

php - Redirect with HTML dropdown select - Stack Overflow

破局者手册 Ⅰ：测试开发核心基础，解锁未来测试密钥！

Node.js 中 async 和 await 的实战演练

Python+AI提示词比特币数据预测：Logistic逻辑回归、SVC及XGB特征工程优化实践

企业应用开发中.NET ORM EF常用哪种模式？

出版社资源管理系统的运营

最新文章

JSON五种基本句型简介

PDFA (ISO 19005)：长期电子文档保存格式全解（工具&amp;SDK推荐）

Promethues部署教程（三）

出版社资源管理系统的运营

国产数据库：大数据时代必备，金仓单机扩集群的高效部署与优化技巧

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

No errors in the console but Ajax call doesn't seem to be working

PDFA (ISO 19005)：长期电子文档保存格式全解（工具&SDK推荐）

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow