md语法教程

本库是本人自己学习的过程中学习所总结的一些东西,APP\Spider--Selenium\Spider\Scrapy等都是各种项目的具体的文件夹,其中大部分都具有解释性的实现md文档,而BasicKnowladeg文件夹内是在学习的过程中所需要掌握和使用的一些第三方库或数据库等等技术记录文章,不仅仅是为自己的未来的实践做一个记录查询,更多的是希望后来人可以更快速和系统的学习爬虫

  • 网页知识:
  • CSS\HTML:分析DOM提取网页内容
  • JS:网页的加密解密、json加载等等
  • HTTP:
  • GTE\POST方法获取服务器请求获取网页
  • Cookie的作用、模拟登录如何才能够让人分别不出来
  • 第三方库:
  • requests:让HTTP为人类服务
  • Urllib :最基本的请求库
  • BeautifulSoup4:更简单的分析页面
  • xpath:分析页面内容
  • pyechart:数据可视化
  • pandas:数据处理
  • selenium :处理动态交页面数据
  • 本地保存 :txt、excle、csv
  • 数据库存储:
  • mongodb
  • mysql
  • 去哪儿携程门票评论 去哪儿的评论简单,直接get拼接的链接即可。携程的POST请求链接不同景点的全都一直,修改的是data里的cid值。数据库存储再导出成excle,快,而且可以避免重复数据的抓取。 finar论文网站数据抓取 多线程、随机休眠、数据库存储、日志文件记录爬虫 爬取淘宝指定商品和价格 requests re 爬取股票数据 requests bs4 人民日报时评 requests bs4 所有大学基本信息与物联网专业开设大学 selenium bs4 pjs 爬取拉勾网python职位信息 requests bs4 json 爬取极客学院所有课程信息 requests bs4 爬取猫眼短评——《我不是药神》 通过猫眼电影的api获取到json文件,通过对json文件的解析得到文本 爬取交友页面的最近200页的内容和url链接存入到excle表格中,并下载所有的图片,借助百度的api打分并根据分值存入到不同的文件夹中。 爬取链家网的二手房、租房、小区等三个方面的信息存入到本地excle中。 易读小说网 爬取易读小说网的真本小说——《极道天魔》 我主良缘网 爬取我主良缘网的信息和图片并进行可视化分析 pyechart 可视化 政府工作报告 爬取政府工作报告文本进行分词和词云 jieba wordcloud 可视化 爬取政府人口的数据进行本地同步可视化(第一个自己实现的动态可视化界面) pyecharts 可视化 爬取京东图书评论,动态难破解直接使用此方法。 requests Emain Beautifulsoup Log requests Bs4 Pymysql 淘宝店铺营业额 requests Bs4 Pymysql time 反爬 抓取照片墙存入本地 中国地震预报 实时抓取地震信息 乱码 txt 网络作家更新状态 requests bs4 excle mysql 短信验证码转qq群 随时抓取 存入数据库 多主键判断是否重复 win32库来发送信息给qq 抓取飞机的数据写入到数据库 投资项目信息库 抓取对外投资的项目字段存入数据 为后续的数据挖掘做数据准备

    Scrapy

    Python Scrapy project group!Daily work and project set。

    PySpider

    可视化爬虫框架

    Number Website Document
  • OKEX : API 区块链批量交易脚本
  • 网易云评论 :存入mogondb,该作者经营一个 公众号
  • NGUWQ掘金作者github库 :确实在爬虫方面做的很不错,之前我没有深入学习selenium的时候有个租房的单子没有接,有个去哪儿酒店的单子没有接,但是用selenium来做确实可以解决很多问题,就好像之前我爬取了京东的书的评价一样的,之前爬取手机的单子就可以通过这样的方法来实现了。只有不断的学习进步才可以让自己的眼界更加的开阔,更加的牛逼。 爬虫进阶之去哪儿酒店(国内外)
  • 淘宝商品爬取 :直接使用selenium来爬取淘宝上ipad的数据
  • 12306抢票脚本
  • 安居客爬虫
  • 爬虫文章索引
  • gitbook :大概在五十本书左右,发现还可以下载pdf版本的文档,多好的东西阿,为什么就是这么的不稳定的呢?要不然我何苦来这里写笔记.
  • 爬虫待实现Github库
  • 爬虫待实现Github库2
  • 爬虫待实现Github库3
  • 爬虫待实现Github库4
  • 星巴克数据可视化
  •