python3爬取torrent种子链接实例-369IT编程

admin管理员组
文章数量:1130349

本文环境是python3,采用的是urllib,BeautifulSoup搭建。

说下思路，这个项目分为管理器，url管理器，下载器，解析器，html文件生产器。各司其职，在管理器进行调度。最后将解析到的种子连接生产html文件显示。当然也可以保存在文件。最后效果如图。

首先在管理器SpiderMain()这个类的构造方法里初始化下载器，解析器，html生产器。代码如下。

def__init__(self):
 
  self.urls = url_manager.UrlManager()
  self.downloader = html_downloader.HtmlDownloader()
  self.parser = html_parser.HtmlParser()
  self.outputer = html_outputer.HtmlOutputer()

然后在主方法里写入主连接并开始下载解析和输出。

if __name__ == '__main__':
  url = "http://www.btany/search/桃谷绘里香-first-asc-1"
  # 解决中文搜索问题 对于：？=不进行转义
  root_url = quote(url,safe='/:?=')
  obj_spider = SpiderMain()
  obj_spider.parser(root_url)

用下载器进行下载，解析器解析下载好的网页，最后输出。管理器的框架逻辑就搭建完毕

def parser(self, root_url):  
  html = self.downloader.download(root_url)  
  datas = self.parser.parserTwo(html)  
  self.outputer.output_html3(datas)

downloader下载器代码如下：

def download(self, chaper_url):
 
  if chaper_url is None:
    return None
  headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
  req = urllib.request.Request(url=chaper_url, headers=headers)
  response = urllib.request.urlopen(req)
  if response.getcode() != 200:
    return None
 
  return response.read()

headers是模仿浏览器的请求头。不然下载不到html文件。

解析器代码如下：

# 解析种子文件
def parserTwo(self,html):
  if html is None:
    return
  soup = BeautifulSoup(html,'html.parser',from_encoding='utf-8')
  res_datas = self._get_data(soup)
  return res_datas
 
# 将种子文件的标题，磁力链接和迅雷链接进行封装
def _get_data(self,soup):
  res_datas = []
  all_data = soup.findAll('a',href=repile(r"/detail"))
  all_data2 = soup.findAll('a', href=repile(r"magnet"))
  all_data3 = soup.findAll('a',href=repile(r"thunder"))
  for i in range(len(all_data)):
    res_data = {}
    res_data['title'] = all_data[i].get_text()
    res_data['cl'] = all_data2[i].get('href')
    res_data['xl'] = all_data3[i].get('href')
    res_datas.append(res_data)
  return res_datas

通过分析爬下来的html文件,种子链接在a标签下。然后提取magnet和thunder下的链接。

最后输出器输出html文件，代码如下：

def __init__(self):
  self.datas = []
 
def collect_data(self, data):
  if data is None:
    return
  self.datas.append(data)
#输出表单 
def output_html3(self,datas):
  fout = open('output.html', 'w', encoding="utf-8")
 
  fout.write("<html>")
  fout.write("<head><meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\"></head>")
  fout.write("<body>")
  fout.write("<table border = 1>")
 
  for data in datas:
    fout.write("<tr>")
    fout.write("<td>%s</td>" % data['title'])
    fout.write("<td>%s</td>" % data['cl'])
    fout.write("<td>%s</td>" % data['xl'])
    fout.write("</tr>")
 
  fout.write("</table>")
  fout.write("</body>")
  fout.write("</html>")
  fout.close()

非常感谢你的阅读
大学的时候选择了自学python，工作了发现吃了计算机基础不好的亏，学历不行这是没办法的事，只能后天弥补，于是在编码之外开启了自己的逆袭之路，不断的学习python核心知识，深入的研习计算机基础知识，整理好了，我放在我们的Python学习扣qun：774711191，如果你也不甘平庸，那就与我一起在编码之外，不断成长吧！

其实这里不仅有技术，更有那些技术之外的东西，比如，如何做一个精致的程序员，而不是“屌丝”，程序员本身就是高贵的一种存在啊，难道不是吗？[点击加入]想做你自己想成为高尚人，加油！

@本文来源于公众号：csdn2299，喜欢可以关注公众号程序员学府

本文环境是python3,采用的是urllib,BeautifulSoup搭建。

首先在管理器SpiderMain()这个类的构造方法里初始化下载器，解析器，html生产器。代码如下。

def__init__(self):
 
  self.urls = url_manager.UrlManager()
  self.downloader = html_downloader.HtmlDownloader()
  self.parser = html_parser.HtmlParser()
  self.outputer = html_outputer.HtmlOutputer()

然后在主方法里写入主连接并开始下载解析和输出。

if __name__ == '__main__':
  url = "http://www.btany/search/桃谷绘里香-first-asc-1"
  # 解决中文搜索问题 对于：？=不进行转义
  root_url = quote(url,safe='/:?=')
  obj_spider = SpiderMain()
  obj_spider.parser(root_url)

用下载器进行下载，解析器解析下载好的网页，最后输出。管理器的框架逻辑就搭建完毕

def parser(self, root_url):  
  html = self.downloader.download(root_url)  
  datas = self.parser.parserTwo(html)  
  self.outputer.output_html3(datas)

downloader下载器代码如下：

def download(self, chaper_url):
 
  if chaper_url is None:
    return None
  headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
  req = urllib.request.Request(url=chaper_url, headers=headers)
  response = urllib.request.urlopen(req)
  if response.getcode() != 200:
    return None
 
  return response.read()

headers是模仿浏览器的请求头。不然下载不到html文件。

解析器代码如下：

# 解析种子文件
def parserTwo(self,html):
  if html is None:
    return
  soup = BeautifulSoup(html,'html.parser',from_encoding='utf-8')
  res_datas = self._get_data(soup)
  return res_datas
 
# 将种子文件的标题，磁力链接和迅雷链接进行封装
def _get_data(self,soup):
  res_datas = []
  all_data = soup.findAll('a',href=repile(r"/detail"))
  all_data2 = soup.findAll('a', href=repile(r"magnet"))
  all_data3 = soup.findAll('a',href=repile(r"thunder"))
  for i in range(len(all_data)):
    res_data = {}
    res_data['title'] = all_data[i].get_text()
    res_data['cl'] = all_data2[i].get('href')
    res_data['xl'] = all_data3[i].get('href')
    res_datas.append(res_data)
  return res_datas

通过分析爬下来的html文件,种子链接在a标签下。然后提取magnet和thunder下的链接。

最后输出器输出html文件，代码如下：

def __init__(self):
  self.datas = []
 
def collect_data(self, data):
  if data is None:
    return
  self.datas.append(data)
#输出表单 
def output_html3(self,datas):
  fout = open('output.html', 'w', encoding="utf-8")
 
  fout.write("<html>")
  fout.write("<head><meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\"></head>")
  fout.write("<body>")
  fout.write("<table border = 1>")
 
  for data in datas:
    fout.write("<tr>")
    fout.write("<td>%s</td>" % data['title'])
    fout.write("<td>%s</td>" % data['cl'])
    fout.write("<td>%s</td>" % data['xl'])
    fout.write("</tr>")
 
  fout.write("</table>")
  fout.write("</body>")
  fout.write("</html>")
  fout.close()

@本文来源于公众号：csdn2299，喜欢可以关注公众号程序员学府

本文标签：实例种子链接 torrent

版权声明：本文标题：python3爬取torrent种子链接实例内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://it.en369.cn/jiaocheng/1763851139a2969004.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

python3爬取torrent种子链接实例

更多相关文章

postman链接浏览器调用接口生成代码

微信扫描二维码或者直接打开链接下载APP时怎么才能自动跳转外部浏览器下载

【免费下载】 高速下载利器：百度网盘分享文件链接解析工具

百度网盘、迅雷下载.torrent种子文件

android 点击跳转到qq,网页端如何实现点击链接跳转到QQ（手机QQ）打开会话

轻松实现网页中通过链接跳转到QQ聊天界面，通过链接加QQ群，自动打开聊天对话框等等，包含电脑版和手机版的实现，示例部分Android和iOS的代码

网页端如何实现点击链接跳转到QQ（手机QQ）打开会话

通过网页或者移动设备链接跳转qq（tim）添加好友（群）

H5手机移动端调起浏览器自带分享功能实例（QQ、UC浏览器微博、微信分享）

浏览器中点击链接，跳转qq添加好友的实现方式

实例入侵某品牌WIFI路由器

怎样在两个局域网内共享一台打印机 。常用网络命令及命令实例详解

两台计算机无法共享链接,[转载]局域网内两台计算机无法互相共享文件

​​飞土搜 磁力链接搜索与资源下载工具

网络资源下载方式：httphttps、ftpsftp、BT种子、磁力下载、ed2k下载等的区别

ROSTCM6软件下载及语义网络分析详细操作教程（附网盘链接）

本文通过实例介绍了Redis的基础知识、数据类型、数据结构以及典型应用场景 值得一看！

网络 计算机 用户名 密码忘了,电脑上的宽带链接忘记用户名只记得密码怎么办？...

SpringBoot实例加每行代码详解，完整版。从0到1！

octave 下载安装链接

发表评论

推荐文章

手机版ChatGPT app如何在国内使用【附完整教程】

腾讯手机管家ROOT功能分析

hbase踩坑记录（二）：Can not resolve promote.cache-dns.local, please check your network

High-speed railway construction promote crusher developing

Rational Rose2003安装（Win10）（另附安装包）

热门文章

原来AI手机是被CPU卡了脖子

如何清理和维护计算机,电脑的优化与维护操作教程

Windows10 C盘如何扩容【10min内解决】

CAD快速看图免安装版5.6

腾讯云的cos防红QQ微信防红直连代码

本地搭建AI做画与AI写作对电脑有那些要求

【建议收藏】ComfyUI保姆级安装手册：环境部署+插件配置全解析

如何用剪映翻译英文字幕？

Windows安装mysql8并设置开机自启动

HP Z2 G3 Mini，有点游戏主机异型那味儿了

最新文章

Sublime 32位 激活码

windows下载安装远程桌面工具RealVNC-Server教程(RealVNC_E4_6_1版带注册码)

【亲测免费】 抖音直播伴侣推流密钥获取工具使用教程

【亲测免费】 Proxifer 安装包与注册码

Royal TSX许可证密钥(6.x后所有版本都可以用)

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

responsive - How to exclude an image size from the Wordpress srcset

【免费下载】高速下载利器：百度网盘分享文件链接解析工具

怎样在两个局域网内共享一台打印机。常用网络命令及命令实例详解

飞土搜磁力链接搜索与资源下载工具

本文通过实例介绍了Redis的基础知识、数据类型、数据结构以及典型应用场景值得一看！

网络计算机用户名密码忘了,电脑上的宽带链接忘记用户名只记得密码怎么办？...

Sublime 32位激活码

【亲测免费】抖音直播伴侣推流密钥获取工具使用教程