相关文章推荐
面冷心慈的花卷  ·  《火焰纹章风花雪月》鱼饵如何获取 ...·  4 月前    · 
有胆有识的勺子  ·  国家统计局投资司首席统计师罗毅飞解读2024 ...·  7 月前    · 
骑白马的大熊猫  ·  广东省人民政府关于《德庆县国土空间总体规划( ...·  8 月前    · 
儒雅的热带鱼  ·  CleanBrowsing的DNS服务器是如 ...·  8 月前    · 
忐忑的机器猫  ·  CXF ...·  8 月前    · 
Code  ›  网络字体反爬之起点中文小说开发者社区
小说 文学 pyspider
https://cloud.tencent.com/developer/article/1191088
淡定的猴子
1 年前
星星在线

网络字体反爬之起点中文小说

前往小程序,Get 更优 阅读体验!
立即前往
腾讯云
开发者社区
文档 建议反馈 控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
发布
首页
学习
活动
专区
工具
TVP 最新优惠活动
返回腾讯云官网
星星在线
首页
学习
活动
专区
工具
TVP 最新优惠活动
返回腾讯云官网
社区首页 > 专栏 > 网络字体反爬之起点中文小说

网络字体反爬之起点中文小说

作者头像
星星在线
发布 于 2018-08-21 10:33:41
1.1K 0
发布 于 2018-08-21 10:33:41
举报
文章被收录于专栏: python爬虫实战之路 python爬虫实战之路

前几天跟同事聊到最近在看什么小说,想起之前看过一篇文章说的是网络十大水文,就想把起点上的小说信息爬一下,搞点可视化数据看看。这段时间正在看爬虫框架-pyspider,觉得这种网站用框架还是很方便的,所以今天就给大家带来这篇---起点中文网小说爬取。可视化我们放到下一集。

安装使用

安装和基本使用请查看pyspider中文文档,我们这篇主要不是介绍pyspider哦。Mac安装的过程中出现了一些问题,请看Mac安装pycurl失败,装好以后使用pyspider all启动。然后打开浏览器输入:http://localhost:5000/ 创建以后,我们就开始分析并编写起点爬虫了。

爬虫编写

打开起点中文网(https://www.qidian.com/),选择全部作品并按照字数排序 右键检查元素,因为是静态网页,所以我们就直接解析网页元素就行了,可以使用BeautifulSoup、PyQuery、xpath或者正在表达式。我习惯用xpath,所以就采这个坑了。 Chrome可自动生成xpath 但是生成的大部分情况下都不是很合适,比如/html/body/div[2]/div[5]/div[2]/div[2]/div/ul/li[1]/div[2]/h4/a,你看这有多长,还是自己写吧,chrome浏览器可以帮我们验证xpath这个是很方便的,有的人是按照xpathhelper插件,我觉得原生就很好用了, CTRL+F 按照此方式我们匹配到小说名、作者、更新状态、更新时间、字数信息然后存储到数据库。 pyspider这个可视化调试的功能确实非常方便,但是我们看到了什么?框框?字数竟然是框框?我就懵逼了 网页元素里看到的竟然也是这个???我不死心,再看看网页源码 好像有些什么编码,但是为什么xpath查出来的是框框的,我百思不得骑姐,试了各种方式发现确实是方框,肿么办捏?我考虑可以把获取到的元素的html源码打印出来,然后再提取一下,是不是可以呢? OK,得到我们需要的数据了,但是这也不是小说字数呀,这就是我写这篇文章的原因了,我们看到上面元素查看截图中的font-face了,里面有一些.ttf、.woff,这些我们应该知道是字体文件,下载下来看一下 这到底是什么鬼?不明白,那就问谷哥和度姐吧,然后我就知道了字体反爬这个概念,涨姿势呀!我明白了一个道理,要想涨姿势,就得多尝试,不然你怎么能知道还有这种姿势呢?我的意思大家都懂吧,然后我就找到了fonttools这个python库,但是还是走了很多弯路,里面提供的命令行识别不了,最后还是通过源码调试找到了getBestCmap这个接口 下载woff字体文件,然后通过BytesIO转化为内存文件,使用TTFont处理

 
推荐文章
面冷心慈的花卷  ·  《火焰纹章风花雪月》鱼饵如何获取 鱼饵获取方法_九游手机游戏
4 月前
有胆有识的勺子  ·  国家统计局投资司首席统计师罗毅飞解读2024年1—8月份投资数据 - 国家统计局
7 月前
骑白马的大熊猫  ·  广东省人民政府关于《德庆县国土空间总体规划(2021—2035年)》的批复  广东省人民政府门户网站
8 月前
儒雅的热带鱼  ·  CleanBrowsing的DNS服务器是如何使Youtube、Google和Bing被迫采用安全模式的?-腾讯云开发者社区-腾讯云
8 月前
忐忑的机器猫  ·  CXF 拦截器获取方法信息和参数信息_<cxf:bus> <cxf:ininterceptors>-CSDN博客
8 月前
今天看啥   ·   Py中国   ·   codingpro   ·   小百科   ·   link之家   ·   卧龙AI搜索
删除内容请联系邮箱 2879853325@qq.com
Code - 代码工具平台
© 2024 ~ 沪ICP备11025650号