慷慨的小刀 · 为嵌入式Tomcat设置'relaxedQu ...· 1 周前 · |
千杯不醉的绿茶 · ABAP 删除内表解析-腾讯云开发者社区-腾讯云· 3 天前 · |
气势凌人的打火机 · 使用preloadJS预加载howler.j ...· 昨天 · |
爱热闹的莲藕 · 一条sql 执行查询列表 ...· 2 月前 · |
想发财的大脸猫 · C语言实现删除某一个数组值的方法_C ...· 1 年前 · |
阳光的金鱼 · 在 npm install 上发现 4 ...· 1 年前 · |
帅呆的玉米 · Fedora 10 ...· 1 年前 · |
今天分享:贴吧爬虫实战
前面分享了爬虫相关的几篇文章,单纯的理论讲解有点乏味,今天就上手一个小项目吧,爬取百度贴吧—暴走表情吧中某网页的全部图片并下载保存到本地,其中可能会涉及到一些还会分享的知识点,在后续的文章中会持续讲解,当然您也可以留言交流或加入免费学习交流群,下面进入正题吧
主函数
如图在该爬虫中,只定义了三个函数,就可实现网页的请求、解析、下载并保存到本地。下面逐一介绍每一个函数
获取目标网页函数
该函数只是运用了我们之前分享的requests库的相关内容,是 try-except 代码块的应用。
解析网页函数
该函数主要运用的是bs4库,之前的文章中也有所提到,上网页源代码分析一下吧
网页源码
通过源码可分析出:图片链接均存放在红色框注明的标签中。所以目标就是把图片的链接从源码中提取出来,再回到上面的解析函数中,使用了美丽汤中的findAll方法将全部符合要求的链接提取出来,并添加保存到预先定义的列表中。
下载保存函数
在该函数中定义了一个while循环,结合运用内置函数os函数打开网页并下载保存到本地。
定义好以上三个函数后,再调用主函数 main() 稍等片刻,图片就已经保存到本地了,来看一下效果:
以上就是暴走表情包爬虫实战的去全部内容,赶快动手去实战吧。源代码已上传至QQ交流群,请自行获取。
领取 专属20元代金券
Get大咖技术交流圈
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2023 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号: 粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
千杯不醉的绿茶 · ABAP 删除内表解析-腾讯云开发者社区-腾讯云 3 天前 |