-
在window、linux、Mac上安装Python3的相关链接。
这里会介绍 Windows 、 Linux 和Mac 三大平台下的安装过程 。 相关链接如下 。
口 官方网站: http ://python.org
口 下载地址: https ://www.python . org/downloads
口 第三方库 : https ://pypi . python.org/pypi
口 官方文档 : https ://docs.python .org/3
口 中文教程 : http ://www. runoob .com/python3/python3-tutorial.html
口 Awesome Python: https://github.com/vinta/awesome-python
口 Awesome Python 中文版 : https: //github . com/jobbole/awesome-python-cn
爬虫可以简单分为几步:抓取页面、分析页面和存储数据。
在抓取页面的过程中 ,我们需要模拟浏览器向服务器发出请求,所以需要用到一些 Python 库来实
现 HTTP 请求操作 。 在本书中,我们用到的
第三方库有 requests 、 Selenium 和 aiohttp
等。
附:命令pip freeze可查看当前已经安装的包。
-
Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作 。
【详见文档P11】
利用ChromeDriver 来驱动chrome浏览器进行爬虫的相关操作。
Chromedriver下载地址:
http://chromedriver.storage.googleapis.com/index.html
Chromedriver版本最好与chrome版本相对应。
如果使用的是Firefox浏览器则需要安装GeckoDriver。
PhantomJS 是一个无界面的 、可脚本编程的 WebKit 浏览器引擎,它原生支持多种 Web 标准 : DOM操作、 css 选择器、 JSON 、 Canvas 以及 SVG 。
-
aiohttp一个提供web异步服务的库
【文档P19】
1.lxml 是 Python 的一个解析库 , 支持 HTML 和 XML 的解析,支持 XPath 解析方式,而且解析效率非常高 。
2.beautifulSoup也是Python的一个解析库,支持HTML 和 XML 的解析,但它依赖于lxml解析库。
3.pyquery解析库提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器。
4. tesserocr是一个用来解析图形验证码的解析库。
【文档P23】
附:OCR(Optical Character Recognition )光学字符识别
-
安装tesseract和tesseroct时会遇到了几个麻烦问题,问题和对应解决如下:
1.【tesseract的下载地址】,下载最新版本即可 :
https://digi.bib.uni-mannheim.de/tesseract/
说明:其中文件名中带有 dev 的为开发版本,不带 dev 的为稳定版本;alpha是内测版,beta是公测版。另外最好安装在默认的路径下面,即C盘下。
2.【tesserocr的安装】,利用pip命令 “pip install tesserocr pillow” 安装时提示缺少VC++14。不要用pip命令安装,直接去以下地址找tesserocr对应的whl文件安装即可。 下载地址:
https://github.com/simonflueckiger/tesserocr-windows_build/releases
。
下载好后用命令:pip install + tesserocr的whl文件名来安装
3.【验证tesseract能否正常使用】
把文档P26的图1-25截图保存,文件命名为image.png作为字符类型的验证码图片样例,然后用如下命令来验证tesseract。要使用tesseract命令需要把安装路径添加到window环境变量中。命令:tesseract image.png result -l eng && type result.txt。输出结果为Python3WebSpider即表示成功。
4.【验证tesserocr能否正常使用】
用文档P26的Python代码测试,运行结果中会报如下错误,此时需要把tesseract安装路径下的tessdata文件夹整个拷贝到Python3安装路径下面才能正常运行。
import tesserocr
print(tesserocr.file_to_text('image.png'))
1. 关系型数据库:SQLite、MySQL、Oracle、SQL Server、DB2。
2.菲关系型数据库:MongoDB、Redis。
3.其中Redis的window系统下的GUI管理工具,截止2019.04.17官网上的最新版本为0.9.9,需要付费下载,我在网络上找到了比较新版本0.9.8的网盘资源,转存到自己的网盘上,链接:https://pan.baidu.com/s/1wlNopEaxiK0cXVqni_IvPQ
提取码:mev6
本篇
文档
是自学
python
爬虫
时候的一个
笔记
文档
,长达千余行左右。
从requests库介绍,bs4库介绍,正则表达式的介绍,scrapy框架的介绍以及应用实例均有涉及。
个人感觉会给是新手学习
python
爬虫
时带来特别大的作用。
第2章介绍了最基本的请求库和正则表达式的基本用法。
第3章介绍了网页解析库,比如BeautifulSoup、XPath、pyquery、parsel,可以使提取信息更加方便快...
文末赠书福利大家好,我是俊欣。说到学习
爬虫
,相信很多人读过《
Python
3
网络
爬虫
开发
实战
》,这本书豆瓣评分 9.0,是数万
爬虫
学习者的必读经典,我也在很多篇文章中推荐过这本书。...
python3
网络
爬虫
开发
实战
pdf
崔庆才 百度网盘分享
介绍了如何利用
Python
3
开发
网络
爬虫
,环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,最后介绍了pyspider框架、Scrapy框架和分布式
爬虫
链接:https://pan.baidu.com/s/1i8JS3FUgD–G8tbZOBsKKQ
提取码:zrv9
python3
网络
爬虫
开发
实战
1.
开发
环境配置2.
爬虫
基础3. 基本库的使用3.1使用urllib3.1.1 发送请求1. urlopen()2. Request3. 高级用法
1.
开发
环境配置
2.
爬虫
基础
3. 基本库的使用
3.1使用urllib
request : 它是最基本的HTTP 请求模块,可以用来模拟发送请求。就像在浏览器里输入网址,然后回车一样,只需要给库方法传入URL 以及额外的参数,就可以模拟实现这个过程了。
error : 异常处理模块,如果出现请求错误, 我们可以捕获这些
年前学习
python
基础知识之后,在好奇心的推动下,我开始接触了
python
网络
爬虫
,而在刚开始接触
网络
爬虫
时,繁多的资料让我猝不及防,对于习惯于优先通过书籍进行自主学习的我来说,通过长期看视频学习反而不是很习惯,但是在
网络
上找到的许多
爬虫
相关资料,不是说的过于简略,就是部分内容有些“过时”。该跟谁走?该怎么走?这个问题那段时间一直困扰着我。