声明:本博客只是简单的
爬虫示范,并不涉及任何商业用途。
一.
Selenium简介
最近博主在学习
爬虫的过程中遇到了一个强无敌的工具—
Selenium,通过它使得我们的
爬虫过程可以像真正的用户在手工操作一般十分有趣,下面我将给大家一些干货,有兴趣的童鞋可以
取学习学习:
Selenium的安装:可以直接使用pip命令
某大佬的中文教程
另一大佬的学习笔记
在本文中只是简单涉及到了获
取以及操作网页中的某些元素等一些基本用法,因此文中不做详细说明。
二.
爬取网页分析
三.
爬虫过程
四.源代码
文章目录一、什么是爬虫二、Selenium实现爬虫的基本流程三、环境搭建1.前置条件2.Selenium安装1.示意2.验证3.ChromeDriver安装总结
一、什么是爬虫
爬虫: 一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。
从技术层面来说就是:通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用;
二、Selenium实现爬虫的基本流程
分析网页结构
连接浏览器
打开指定的页面.
查找要
爬取内容的页面的url,使用requests库获
取响应内容
内容为html源码则使用BeautifulSoup等工具解析html源码,得到想要的数据
内容为Json则直接转为Json对象解析
但今天我发现了
selenium这个工具,
selenium是一套完整的web应用程序测试系统,可以用它来模拟真实浏览器进行测试。在
爬虫中使用它的...