def
getChapterUrl(url):
headers
=
{
"
User-Agent
"
:
"
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36
"
part_url
=
"
http://ac.qq.com
"
res
= requests.get(url, headers=
headers)
html
=
res.content.decode()
el
=
etree.HTML(html)
li_list
= el.xpath(
'
//*[@id="chapter"]/div[2]/ol[1]/li
'
)
for
li
in
li_list:
for
p
in
li.xpath(
"
./p
"
):
for
span
in
p.xpath(
"
./span[@class='works-chapter-item']
"
):
item
=
{}
list_title
= span.xpath(
"
./a/@title
"
)[0].replace(
'
'
,
''
).split(
'
:
'
)
if
list_title[1].startswith((
'
第
'
,
'
序
'
)):
getChapterFile(part_url
+ span.xpath(
"
./a/@href
"
)[0], list_title[0],list_title[1
])
def
getChapterFile(url,path1,path2):
#
path = os.path.join(path)
#
漫画名称目录
path=
os.path.join(path1)
if
not
os.path.exists(path):
os.mkdir(path)
#
章节目录
path=path+
'
\\
'
+
path2
if
not
os.path.exists(path):
os.mkdir(path)
chrome
=
webdriver.Chrome()
#
"http://ac.qq.com/ComicView/index/id/505435/cid/2"
chrome.get(url)
time.sleep(
4
)
imgs
= chrome.find_elements_by_xpath(
"
//div[@id='mainView']/ul[@id='comicContain']//img
"
)
for
i
in
range(0, len(imgs)):
js
=
"
document.getElementById('mainView').scrollTop=
"
+str((i) * 1280
)
chrome.execute_script(js)
time.sleep(
3
)
print
(imgs[i].get_attribute(
"
src
"
))
with open(path
+
'
\\
'
+str(i)+
'
.png
'
,
'
wb
'
) as f:
f.write(requests.get(imgs[i].get_attribute(
"
src
"
)).content)
chrome.close()
print
(
'
下载完成
'
)
if
__name__
==
'
__main__
'
:
getChapterUrl(
'
http://ac.qq.com/Comic/ComicInfo/id/505435
'
)
输入一个漫画的url即可爬取该漫画所有的章节,由于是模拟用户爬取的,所以速度方面有点慢,我试了下爬取银魂前70章,用了1个半小时,代码中的sleep可以适当简短点已加快爬取的速度
付费的漫画是没有办法爬取的
谈一下过程中遇到的坑
腾讯的漫画网站打开章节时没有把所有图片的url都加载出来,所以我在这里用的方式是使用selenium来模拟用户操作,每次打开页面以后使用js操作滚动条下拉
最后再贴下代码库,其实贴出的代码已经是所有的代码了
https://dev.azure.com/shenjuncaci/PythonTecentManhua
转载于:https://www.cnblogs.com/lovejunjuan/p/11389241.html
原文链接:
http://www.cnblogs.com/lovejunjuan/p/11389241.html
前言
漫画
是什么?丰子恺说:“
漫画
是简笔而注重意义的一种绘画。如今
漫画
深受大众喜欢,今天我们就来采集一下
漫画
数据吧,免费看完本环境使用:
Python
3.8及Pycharm模块使用:pip install requests 数据请求模块parsel >>>pip install parsel 数据解析模块基本思路流程: 二. 代码实现步骤获取章节ID/章节名字/
漫画
名字:请求链接:
漫画
目录页url获取数据, 获取服务器返回响应数据。
第一阶段:Java基础
学习任何一门编程语言,首先要学习的是基础语法,开启Java学习的第一步,当然就是深入掌握计算机基础、编程基础语法,面向对象,集合、IO流、线程、并发、异常及网络编程,这些我们称之为JavaSE基础。
当你掌握了这些内容之后,你就可以做出诸如:电脑上安装的迅雷下载软件、QQ聊天客户端、考勤管理系统等桌面端软件。
第二阶段:数据库
互联网最具价值的是数据,任何编程语言都需要解决数据存储问题,而数据存储的关键技术是数据库。MySQL和Oracle都是广受企业欢迎的数据库管理系统。Java
漫画
书1.平台:Android客户端(后期完善IOS端)2.开发框架:React Native react-redux react-thunk3.开发工具:Vs Code 1.81.项目架构appactions 用户行为reducer 对用户行为进行分发,更新状态store 整合全部reducercontainer 业务模块components UI组件utils 工具文件images 图片con...
喜欢看海贼王的各位童鞋们,草帽一伙已经来到和之国啦,动漫在7月7号将会进入和之国篇章啦!想提前看和之国篇章的同学可以先看一波
漫画
啦!说到这里我有个打算,将网站上的所有和之...
对于网页设计师来说,前端代码CSS/HTML不是强项,但有时候也是需要写的。特别是现在流行CSS3动画,学习和了解一些相关知识是必须的。CSS3动画其实不算复杂,比JS简单得多,今天我们整理自CODEPEN上的一些好看的CSS3动画片段,从这些案例中设计师可以从中学习,并了解一些新的代码写法,又或者获取一些动画灵感也是不错的哦。以下为CSS3动画案例整理:青蛙与小船动画美丽的小河,有一只可爱的小蛙...
绝对是史上最全免费看
漫画
APP总结(iOS+安卓),欢迎收藏,持续更新首先介绍安卓的,好用的APP真的非常多,各位慢慢看~第一款:看
漫画
(安卓)酷安评分4.6(满分5)民间艺术版 所有土豪
漫画
免费看 无任何使用限制所有土豪
漫画
都可以免费看~获取方式:应知乎管理员要求,到个人介绍处查看第二款:漫客栈(安卓)知名
漫画
APP,但是个人原因不是很喜欢,所以不做详细介绍同样民间艺术版 所有土豪
漫画
免费看 无...
【实例简介】【实例截图】【核心代码】dilidili动漫├── css│ ├── bootstrap.css│ ├── jquery-ui-1.10.3.custom.css│ └── style.css├── img│ ├── fate.jpg│ ├── 夏目.jpeg│ ├── 超炮.jpeg│ ├── 七色.jpg│ ├── 入间.jpg│ ├── 千空....
所有的
漫画
章节链接都在一个页面中全部被包含。1个<li>包含5个<pi>,1个<pi>包含4个<span>,1个<span>中存储一个章节。所以1个<li>对应
腾讯
漫画
每20个一组的分组...
由于推上的aoi最近很火,顺便就查了一下她的片子,发现之前有出演过的嬢王virgin然后就找到这个
漫画
,然后就找到了可可
漫画
网站,就是下面这个:http://www.cococomic.com/ 这个网站做得很好,
漫画
蛮多的,不过一张一张的看然后翻页,比较不爽看了一下页面代码,使用firefox浏览时使用firebug,执行一个js脚本,就可以将当前阅读的章节所有
漫画
生成到
漫画
台小科普:
是国内领先的原创
漫画
阅读平台,拥有斗罗大陆、花千骨、斗破苍穹、血族禁域、绝世唐门、穿越西元3000后、妃夕妍雪等一大批的优秀国产
漫画
。看国漫来
漫画
台!!
漫画
台APP涵盖超全分类,国漫、日漫、港台、美漫任你选。热血、霸总、耽美、校园、搞笑……等多种类型满足各位小主不同口味。专属
漫画
最有爱男神\/女神
漫画
分区看,选择最爱分类
漫画
,编辑每日精选推荐!这款分享是免费看
漫画
的软件了,是可以正常使用的。
看
漫画
不能绝对绝对不能错过的...