def getChapterUrl(url): headers = { " User-Agent " : " Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36 " part_url = " http://ac.qq.com " res = requests.get(url, headers= headers) html = res.content.decode() el = etree.HTML(html) li_list = el.xpath( ' //*[@id="chapter"]/div[2]/ol[1]/li ' ) for li in li_list: for p in li.xpath( " ./p " ): for span in p.xpath( " ./span[@class='works-chapter-item'] " ): item = {} list_title = span.xpath( " ./a/@title " )[0].replace( ' ' , '' ).split( ' ' ) if list_title[1].startswith(( ' ' , ' ' )): getChapterFile(part_url + span.xpath( " ./a/@href " )[0], list_title[0],list_title[1 ]) def getChapterFile(url,path1,path2): # path = os.path.join(path) # 漫画名称目录 path= os.path.join(path1) if not os.path.exists(path): os.mkdir(path) # 章节目录 path=path+ ' \\ ' + path2 if not os.path.exists(path): os.mkdir(path) chrome = webdriver.Chrome() # "http://ac.qq.com/ComicView/index/id/505435/cid/2" chrome.get(url) time.sleep( 4 ) imgs = chrome.find_elements_by_xpath( " //div[@id='mainView']/ul[@id='comicContain']//img " ) for i in range(0, len(imgs)): js = " document.getElementById('mainView').scrollTop= " +str((i) * 1280 ) chrome.execute_script(js) time.sleep( 3 ) print (imgs[i].get_attribute( " src " )) with open(path + ' \\ ' +str(i)+ ' .png ' , ' wb ' ) as f: f.write(requests.get(imgs[i].get_attribute( " src " )).content) chrome.close() print ( ' 下载完成 ' ) if __name__ == ' __main__ ' : getChapterUrl( ' http://ac.qq.com/Comic/ComicInfo/id/505435 ' )

输入一个漫画的url即可爬取该漫画所有的章节,由于是模拟用户爬取的,所以速度方面有点慢,我试了下爬取银魂前70章,用了1个半小时,代码中的sleep可以适当简短点已加快爬取的速度

付费的漫画是没有办法爬取的

谈一下过程中遇到的坑

腾讯的漫画网站打开章节时没有把所有图片的url都加载出来,所以我在这里用的方式是使用selenium来模拟用户操作,每次打开页面以后使用js操作滚动条下拉

最后再贴下代码库,其实贴出的代码已经是所有的代码了

https://dev.azure.com/shenjuncaci/PythonTecentManhua

转载于:https://www.cnblogs.com/lovejunjuan/p/11389241.html

原文链接: http://www.cnblogs.com/lovejunjuan/p/11389241.html 前言 漫画 是什么?丰子恺说:“ 漫画 是简笔而注重意义的一种绘画。如今 漫画 深受大众喜欢,今天我们就来采集一下 漫画 数据吧,免费看完本环境使用: Python 3.8及Pycharm模块使用:pip install requests 数据请求模块parsel >>>pip install parsel 数据解析模块基本思路流程: 二. 代码实现步骤获取章节ID/章节名字/ 漫画 名字:请求链接: 漫画 目录页url获取数据, 获取服务器返回响应数据。 第一阶段:Java基础 学习任何一门编程语言,首先要学习的是基础语法,开启Java学习的第一步,当然就是深入掌握计算机基础、编程基础语法,面向对象,集合、IO流、线程、并发、异常及网络编程,这些我们称之为JavaSE基础。 当你掌握了这些内容之后,你就可以做出诸如:电脑上安装的迅雷下载软件、QQ聊天客户端、考勤管理系统等桌面端软件。 第二阶段:数据库 互联网最具价值的是数据,任何编程语言都需要解决数据存储问题,而数据存储的关键技术是数据库。MySQL和Oracle都是广受企业欢迎的数据库管理系统。Java 漫画 书1.平台:Android客户端(后期完善IOS端)2.开发框架:React Native react-redux react-thunk3.开发工具:Vs Code 1.81.项目架构appactions 用户行为reducer 对用户行为进行分发,更新状态store 整合全部reducercontainer 业务模块components UI组件utils 工具文件images 图片con... 喜欢看海贼王的各位童鞋们,草帽一伙已经来到和之国啦,动漫在7月7号将会进入和之国篇章啦!想提前看和之国篇章的同学可以先看一波 漫画 啦!说到这里我有个打算,将网站上的所有和之... 对于网页设计师来说,前端代码CSS/HTML不是强项,但有时候也是需要写的。特别是现在流行CSS3动画,学习和了解一些相关知识是必须的。CSS3动画其实不算复杂,比JS简单得多,今天我们整理自CODEPEN上的一些好看的CSS3动画片段,从这些案例中设计师可以从中学习,并了解一些新的代码写法,又或者获取一些动画灵感也是不错的哦。以下为CSS3动画案例整理:青蛙与小船动画美丽的小河,有一只可爱的小蛙... 绝对是史上最全免费看 漫画 APP总结(iOS+安卓),欢迎收藏,持续更新首先介绍安卓的,好用的APP真的非常多,各位慢慢看~第一款:看 漫画 (安卓)酷安评分4.6(满分5)民间艺术版 所有土豪 漫画 免费看 无任何使用限制所有土豪 漫画 都可以免费看~获取方式:应知乎管理员要求,到个人介绍处查看第二款:漫客栈(安卓)知名 漫画 APP,但是个人原因不是很喜欢,所以不做详细介绍同样民间艺术版 所有土豪 漫画 免费看 无... 【实例简介】【实例截图】【核心代码】dilidili动漫├── css│ ├── bootstrap.css│ ├── jquery-ui-1.10.3.custom.css│ └── style.css├── img│ ├── fate.jpg│ ├── 夏目.jpeg│ ├── 超炮.jpeg│ ├── 七色.jpg│ ├── 入间.jpg│ ├── 千空.... 所有的 漫画 章节链接都在一个页面中全部被包含。1个<li>包含5个<pi>,1个<pi>包含4个<span>,1个<span>中存储一个章节。所以1个<li>对应 腾讯 漫画 每20个一组的分组... 由于推上的aoi最近很火,顺便就查了一下她的片子,发现之前有出演过的嬢王virgin然后就找到这个 漫画 ,然后就找到了可可 漫画 网站,就是下面这个:http://www.cococomic.com/ 这个网站做得很好, 漫画 蛮多的,不过一张一张的看然后翻页,比较不爽看了一下页面代码,使用firefox浏览时使用firebug,执行一个js脚本,就可以将当前阅读的章节所有 漫画 生成到 ​​​ 漫画 台小科普:​​​ 是国内领先的原创 漫画 阅读平台,拥有斗罗大陆、花千骨、斗破苍穹、血族禁域、绝世唐门、穿越西元3000后、妃夕妍雪等一大批的优秀国产 漫画 。看国漫来 漫画 台!! 漫画 台APP涵盖超全分类,国漫、日漫、港台、美漫任你选。热血、霸总、耽美、校园、搞笑……等多种类型满足各位小主不同口味。专属 漫画 最有爱男神\/女神 漫画 分区看,选择最爱分类 漫画 ,编辑每日精选推荐!这款分享是免费看 漫画 的软件了,是可以正常使用的。 看 漫画 不能绝对绝对不能错过的...