admin管理员组文章数量:1026989
目标网站:https://ac.qq/
实现功能:下载全部漫画到本地文件夹中
实现代码:
import requests
from lxml import etree
from selenium import webdriver
from time import sleep
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.options import Options
import os
#打开腾讯动漫首页
url = 'https://ac.qq/'
#给网页发送请求
data = requests.get(url).text
#将网页信息转换成xpath可识别的类型
html = etree.HTML(data)
#提取到每个漫画的目录页地址
comic_list = html.xpath('//a[@]/@href')
#print(comic_list)
#遍历提取到的信息
for comic in comic_list:
#拼接成为漫画目录页的网址
comic_url = url + str(comic)
#从漫画目录页提取信息
url_data = requests.get(comic_url).text
#准备用xpath语法提取信息
data_comic = etree.HTML(url_data)
#提取漫画名--text()为提取文本内容
name_comic = data_comic.xpath("//h2[@class='works-intro-title ui-left']/strong/text()")
#提取该漫画每一页的地址
item_list = data_comic.xpath(
目标网站:https://ac.qq/
实现功能:下载全部漫画到本地文件夹中
实现代码:
import requests
from lxml import etree
from selenium import webdriver
from time import sleep
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.options import Options
import os
#打开腾讯动漫首页
url = 'https://ac.qq/'
#给网页发送请求
data = requests.get(url).text
#将网页信息转换成xpath可识别的类型
html = etree.HTML(data)
#提取到每个漫画的目录页地址
comic_list = html.xpath('//a[@]/@href')
#print(comic_list)
#遍历提取到的信息
for comic in comic_list:
#拼接成为漫画目录页的网址
comic_url = url + str(comic)
#从漫画目录页提取信息
url_data = requests.get(comic_url).text
#准备用xpath语法提取信息
data_comic = etree.HTML(url_data)
#提取漫画名--text()为提取文本内容
name_comic = data_comic.xpath("//h2[@class='works-intro-title ui-left']/strong/text()")
#提取该漫画每一页的地址
item_list = data_comic.xpath(
版权声明:本文标题:Python爬虫----爬取腾讯动漫全站漫画 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://it.en369.cn/jiaocheng/1726781453a664833.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论