相关文章推荐
至今单身的青蛙  ·  MariaDB Galera ...·  7 月前    · 
胡子拉碴的椰子  ·  在 TypeScript ...·  1 年前    · 
长情的山羊  ·  9个小技巧让你的 if ...·  1 年前    · 
细心的荒野  ·  基于Verilog ...·  1 年前    · 
  • 在window、linux、Mac上安装Python3的相关链接。

这里会介绍 Windows 、 Linux 和Mac 三大平台下的安装过程 。 相关链接如下 。
口 官方网站: http ://python.org
口 下载地址: https ://www.python . org/downloads
口 第三方库 : https ://pypi . python.org/pypi
口 官方文档 : https ://docs.python .org/3
口 中文教程 : http ://www. runoob .com/python3/python3-tutorial.html
口 Awesome Python: https://github.com/vinta/awesome-python
口 Awesome Python 中文版 : https: //github . com/jobbole/awesome-python-cn

  • 爬虫需要安装的 请求库【详见文档P10】

爬虫可以简单分为几步:抓取页面、分析页面和存储数据。
在抓取页面的过程中 ,我们需要模拟浏览器向服务器发出请求,所以需要用到一些 Python 库来实
现 HTTP 请求操作 。 在本书中,我们用到的 第三方库有 requests 、 Selenium 和 aiohttp 等。
附:命令pip freeze可查看当前已经安装的包。

  • Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作 。 【详见文档P11】

利用ChromeDriver 来驱动chrome浏览器进行爬虫的相关操作。

Chromedriver下载地址: http://chromedriver.storage.googleapis.com/index.html

Chromedriver版本最好与chrome版本相对应。

如果使用的是Firefox浏览器则需要安装GeckoDriver。

  • PhantomJS安装 【详见文档P17】

PhantomJS 是一个无界面的 、可脚本编程的 WebKit 浏览器引擎,它原生支持多种 Web 标准 : DOM操作、 css 选择器、 JSON 、 Canvas 以及 SVG 。

  • aiohttp一个提供web异步服务的库 【文档P19】
  • 爬虫需要安装的 解析库【文档P19】

1.lxml 是 Python 的一个解析库 , 支持 HTML 和 XML 的解析,支持 XPath 解析方式,而且解析效率非常高 。

2.beautifulSoup也是Python的一个解析库,支持HTML 和 XML 的解析,但它依赖于lxml解析库。

3.pyquery解析库提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器。

4. tesserocr是一个用来解析图形验证码的解析库。 【文档P23】

附:OCR(Optical Character Recognition )光学字符识别

  • 安装tesseract和tesseroct时会遇到了几个麻烦问题,问题和对应解决如下:

1.【tesseract的下载地址】,下载最新版本即可 : https://digi.bib.uni-mannheim.de/tesseract/

说明:其中文件名中带有 dev 的为开发版本,不带 dev 的为稳定版本;alpha是内测版,beta是公测版。另外最好安装在默认的路径下面,即C盘下。

2.【tesserocr的安装】,利用pip命令 “pip install tesserocr pillow” 安装时提示缺少VC++14。不要用pip命令安装,直接去以下地址找tesserocr对应的whl文件安装即可。 下载地址: https://github.com/simonflueckiger/tesserocr-windows_build/releases

下载好后用命令:pip install + tesserocr的whl文件名来安装

3.【验证tesseract能否正常使用】

把文档P26的图1-25截图保存,文件命名为image.png作为字符类型的验证码图片样例,然后用如下命令来验证tesseract。要使用tesseract命令需要把安装路径添加到window环境变量中。命令:tesseract image.png result -l eng && type result.txt。输出结果为Python3WebSpider即表示成功。

4.【验证tesserocr能否正常使用】

用文档P26的Python代码测试,运行结果中会报如下错误,此时需要把tesseract安装路径下的tessdata文件夹整个拷贝到Python3安装路径下面才能正常运行。

import tesserocr
print(tesserocr.file_to_text('image.png'))
  • 数据库类型:

1. 关系型数据库:SQLite、MySQL、Oracle、SQL Server、DB2。

2.菲关系型数据库:MongoDB、Redis。

3.其中Redis的window系统下的GUI管理工具,截止2019.04.17官网上的最新版本为0.9.9,需要付费下载,我在网络上找到了比较新版本0.9.8的网盘资源,转存到自己的网盘上,链接:https://pan.baidu.com/s/1wlNopEaxiK0cXVqni_IvPQ
提取码:mev6

本篇 文档 是自学 python 爬虫 时候的一个 笔记 文档 ,长达千余行左右。 从requests库介绍,bs4库介绍,正则表达式的介绍,scrapy框架的介绍以及应用实例均有涉及。 个人感觉会给是新手学习 python 爬虫 时带来特别大的作用。 第2章介绍了最基本的请求库和正则表达式的基本用法。 第3章介绍了网页解析库,比如BeautifulSoup、XPath、pyquery、parsel,可以使提取信息更加方便快... 文末赠书福利大家好,我是俊欣。说到学习 爬虫 ,相信很多人读过《 Python 3 网络 爬虫 开发 实战 》,这本书豆瓣评分 9.0,是数万 爬虫 学习者的必读经典,我也在很多篇文章中推荐过这本书。... python3 网络 爬虫 开发 实战 pdf 崔庆才 百度网盘分享 介绍了如何利用 Python 3 开发 网络 爬虫 ,环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,最后介绍了pyspider框架、Scrapy框架和分布式 爬虫 链接:https://pan.baidu.com/s/1i8JS3FUgD–G8tbZOBsKKQ 提取码:zrv9 python3 网络 爬虫 开发 实战 1. 开发 环境配置2. 爬虫 基础3. 基本库的使用3.1使用urllib3.1.1 发送请求1. urlopen()2. Request3. 高级用法 1. 开发 环境配置 2. 爬虫 基础 3. 基本库的使用 3.1使用urllib request : 它是最基本的HTTP 请求模块,可以用来模拟发送请求。就像在浏览器里输入网址,然后回车一样,只需要给库方法传入URL 以及额外的参数,就可以模拟实现这个过程了。 error : 异常处理模块,如果出现请求错误, 我们可以捕获这些 年前学习 python 基础知识之后,在好奇心的推动下,我开始接触了 python 网络 爬虫 ,而在刚开始接触 网络 爬虫 时,繁多的资料让我猝不及防,对于习惯于优先通过书籍进行自主学习的我来说,通过长期看视频学习反而不是很习惯,但是在 网络 上找到的许多 爬虫 相关资料,不是说的过于简略,就是部分内容有些“过时”。该跟谁走?该怎么走?这个问题那段时间一直困扰着我。