【阅读笔记】《Python3网络爬虫开发实战》PDF文档_慕羽晨熙的博客

相关文章推荐

至今单身的青蛙 · MariaDB Galera ...· 7 月前 ·

不拘小节的番茄 · 为什么相同的opengl代码在核显和独显上跑 ...· 1 年前 ·

胡子拉碴的椰子 · 在 TypeScript ...· 1 年前 ·

长情的山羊 · 9个小技巧让你的 if ...· 1 年前 ·

细心的荒野 · 基于Verilog ...· 1 年前 ·

在window、linux、Mac上安装Python3的相关链接。

这里会介绍 Windows 、 Linux 和Mac 三大平台下的安装过程。相关链接如下。
口官方网站： http ://python.org
口下载地址： https ://www.python . org/downloads
口第三方库： https ://pypi . python.org/pypi
口官方文档： https ://docs.python .org/3
口中文教程： http ://www. runoob .com/python3/python3-tutorial.html
口 Awesome Python: https://github.com/vinta/awesome-python
口 Awesome Python 中文版： https: //github . com/jobbole/awesome-python-cn

爬虫需要安装的请求库【详见文档P10】

爬虫可以简单分为几步：抓取页面、分析页面和存储数据。
在抓取页面的过程中，我们需要模拟浏览器向服务器发出请求，所以需要用到一些 Python 库来实
现 HTTP 请求操作。在本书中，我们用到的第三方库有 requests 、 Selenium 和 aiohttp 等。
附：命令pip freeze可查看当前已经安装的包。

Selenium 是一个自动化测试工具，利用它我们可以驱动浏览器执行特定的动作，如点击、下拉等操作。【详见文档P11】

利用ChromeDriver 来驱动chrome浏览器进行爬虫的相关操作。

Chromedriver下载地址： http://chromedriver.storage.googleapis.com/index.html

Chromedriver版本最好与chrome版本相对应。

如果使用的是Firefox浏览器则需要安装GeckoDriver。

PhantomJS安装【详见文档P17】

PhantomJS 是一个无界面的、可脚本编程的 WebKit 浏览器引擎，它原生支持多种 Web 标准： DOM操作、 css 选择器、 JSON 、 Canvas 以及 SVG 。

aiohttp一个提供web异步服务的库【文档P19】

爬虫需要安装的解析库【文档P19】

1.lxml 是 Python 的一个解析库，支持 HTML 和 XML 的解析，支持 XPath 解析方式，而且解析效率非常高。

2.beautifulSoup也是Python的一个解析库，支持HTML 和 XML 的解析，但它依赖于lxml解析库。

3.pyquery解析库提供了和jQuery类似的语法来解析HTML文档，支持CSS选择器。

4. tesserocr是一个用来解析图形验证码的解析库。【文档P23】

附：OCR（Optical Character Recognition ）光学字符识别

安装tesseract和tesseroct时会遇到了几个麻烦问题，问题和对应解决如下：

1.【tesseract的下载地址】，下载最新版本即可： https://digi.bib.uni-mannheim.de/tesseract/

说明：其中文件名中带有 dev 的为开发版本，不带 dev 的为稳定版本；alpha是内测版，beta是公测版。另外最好安装在默认的路径下面，即C盘下。

2.【tesserocr的安装】，利用pip命令 “pip install tesserocr pillow” 安装时提示缺少VC++14。不要用pip命令安装，直接去以下地址找tesserocr对应的whl文件安装即可。下载地址： https://github.com/simonflueckiger/tesserocr-windows_build/releases 。

下载好后用命令：pip install + tesserocr的whl文件名来安装

3.【验证tesseract能否正常使用】

把文档P26的图1-25截图保存，文件命名为image.png作为字符类型的验证码图片样例，然后用如下命令来验证tesseract。要使用tesseract命令需要把安装路径添加到window环境变量中。命令：tesseract image.png result -l eng && type result.txt。输出结果为Python3WebSpider即表示成功。

4.【验证tesserocr能否正常使用】

用文档P26的Python代码测试，运行结果中会报如下错误，此时需要把tesseract安装路径下的tessdata文件夹整个拷贝到Python3安装路径下面才能正常运行。

import tesserocr
print(tesserocr.file_to_text('image.png'))

数据库类型：

1. 关系型数据库：SQLite、MySQL、Oracle、SQL Server、DB2。

2.菲关系型数据库：MongoDB、Redis。

3.其中Redis的window系统下的GUI管理工具，截止2019.04.17官网上的最新版本为0.9.9，需要付费下载，我在网络上找到了比较新版本0.9.8的网盘资源，转存到自己的网盘上，链接：https://pan.baidu.com/s/1wlNopEaxiK0cXVqni_IvPQ
提取码：mev6

本篇文档是自学 python 爬虫时候的一个笔记文档，长达千余行左右。从requests库介绍，bs4库介绍，正则表达式的介绍，scrapy框架的介绍以及应用实例均有涉及。个人感觉会给是新手学习 python 爬虫时带来特别大的作用。第2章介绍了最基本的请求库和正则表达式的基本用法。第3章介绍了网页解析库，比如BeautifulSoup、XPath、pyquery、parsel，可以使提取信息更加方便快... 文末赠书福利大家好，我是俊欣。说到学习爬虫，相信很多人读过《 Python 3 网络爬虫开发实战》，这本书豆瓣评分 9.0，是数万爬虫学习者的必读经典，我也在很多篇文章中推荐过这本书。... python3 网络爬虫开发实战 pdf 崔庆才百度网盘分享介绍了如何利用 Python 3 开发网络爬虫，环境配置和基础知识，然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容，接着通过多个案例介绍了不同场景下如何实现数据爬取，最后介绍了pyspider框架、Scrapy框架和分布式爬虫链接：https://pan.baidu.com/s/1i8JS3FUgD–G8tbZOBsKKQ 提取码：zrv9 python3 网络爬虫开发实战 1. 开发环境配置2. 爬虫基础3. 基本库的使用3.1使用urllib3.1.1 发送请求1. urlopen()2. Request3. 高级用法 1. 开发环境配置 2. 爬虫基础 3. 基本库的使用 3.1使用urllib request ：它是最基本的HTTP 请求模块，可以用来模拟发送请求。就像在浏览器里输入网址，然后回车一样，只需要给库方法传入URL 以及额外的参数，就可以模拟实现这个过程了。 error ：异常处理模块，如果出现请求错误，我们可以捕获这些年前学习 python 基础知识之后，在好奇心的推动下，我开始接触了 python 网络爬虫，而在刚开始接触网络爬虫时，繁多的资料让我猝不及防，对于习惯于优先通过书籍进行自主学习的我来说，通过长期看视频学习反而不是很习惯，但是在网络上找到的许多爬虫相关资料，不是说的过于简略，就是部分内容有些“过时”。该跟谁走？该怎么走？这个问题那段时间一直困扰着我。