前言:
小编本身是一个测试狗,由于不满足于重复机械性的黑盒测试,所以查阅了一些自动化测试手段,大多数都是介绍python+selenium来模拟你的操作,从而实现机械循环,同时也在极客时间订阅一个测试专栏,但是每次想看的时候总是得去登录查看就很麻烦,所以就琢磨着怎么能既省事,又能帮我一份份整理成pdf呢。说起这个也是很巧,我在微信搜索一些内容的时候,才看到一篇推文,作者爬虫内容正式我想要的,所以立马有模有样的马了下来。好了,就不废话了,说下我怎么实现的(最近刚学习Python不久,一些代码可能没那么规范,只为了实现我的目标,还望指点)
环境:
系统版本:win7
编程语言:python3.5 (推荐使用Anaconda这个科学计算版本,要是因为它自带一个包管理工具,可以解决有些包安装错误的问题)
pythonIDE软件:pycharm
(关于python环境搭建,我后续会写一篇我在搭建的经验以及填的坑)
程序包的安装:
打开conda控制面板,通过pip安装,安装前,pip最好先升级,避免安装过程出现一些奇奇怪怪的问题
1、pip升级
python -m pip install -U pip
2、selenium库
3、chrome浏览器安装
4、chromedriver安装(要与chrome版本对应)
5、wkhtmltopdf安装
官网下载地址:https://wkhtmltopdf.org/downloads.html
64位地址:https://downloads.wkhtmltopdf.org/0.12/0.12.4/wkhtmltox-0.12.4_mingw-w64-cross-win64.exe
32位地址:https://downloads.wkhtmltopdf.org/0.12/0.12.4/wkhtmltox-0.12.4_mingw-w64-cross-win32.exe
下载后双击安装就好
安装路径:D:\python\wkhtmltopdf
系统path环境变量:;D:\python\wkhtmltopdf\bin
6、pdfkit安装:pip install pdfkit
7、在pycharm中安装wkhtmltopdf
File->settings->Project Interpreter->选择右侧绿色的+号->弹出对话框就可以找到wkhtmltopdf进行安装了
8、在pycharm中安装pdfkit和7步骤一样
代码编写:
环境以及必备的东西都准备好,接下来撸起袖子,码代码了
一开始运行很顺利,你以为可以安心等他跑完,就可以爬取下所有文章,结果程序和你开了个玩笑,出现了下面的报错
看到报错,有点懵,不知道怎么处理,后面在网页端查看的时候,发现我下拉框滑到最下面的时候,需要加载下面的内容才能显示出来,但是没有进行下拉执行操作,导致脚本获取不到后面的目录,所以才会报错
爬取结果:
终于在多次调试后,终于实现了我要的结果,特此记录一下。
后续我也会在公号这边不断更新一些我的python学习心得,以及自动化测试的一些学习笔记