phantom: 美 ['fæntəm],鬼怪,幽灵。
PhantomJS 是一个基于 Webkit 的“无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的 JavaScript,因为不会展示图形界面,所以运行起来比完整的浏览器要高效。
如果我们把 Selenium 和 PhantomJS 结合在一起,就可以运行一个非常强大的网络爬虫了,这个爬虫可以处理 JavaScrip、cookie、headers,以及任何我们真实用户需要做的事情。
注意:PhantomJS 只能从它的官方网站 http://phantomjs.org/download.html) 下载。 因为 PhantomJS 是一个功能完善(虽然无界面)的浏览器而非一个 Python 库,所以它不需 要像 Python 的其他库一样安装,但我们可以通过 Selenium 调用 PhantomJS 来直接使用。
下载–解压,然后,设置环境变量:C:\Users\cz\Downloads\phantomjs-2.1.1-windows\bin
打开终端命令行,输入:phantomjs,能够进行到 phantomjs 命令行,则表示安装成功,如下图所示:
PhantomJS 官方参考文档:http://phantomjs.org/documentation
快速入门:
Selenium 库里有个叫 WebDriver 的 API。WebDriver 有点儿像可以加载网站的浏览器,但是它也可以像BeautifulSoup 或者其他 Selector 对象一样用来查找页面元素,与页面上的元素进行交互 (发送文本、点击等),以及执行其他动作来运行网络爬虫。