pycharm社区版可以写爬虫吗?

[图片] 库会报错诶
关注者
7
被浏览
19,905

5 个回答

移除 SSL 验证,response = requests.get(url, verify=False),运行后会出现警告,忽略即可,pycharm 社区版自然可以写爬虫,不过更推荐专业版,方便对 JS 文件进行断点调试,关于爬虫学习我可以给到以下推荐:

你在网上看到的,95%以上的都是爬虫基础,特别是各种营销号,有很多视频,没有更“高级”的东西,包括知乎上你看到的回答,95%以上都是回答一些基础(可能回答的人自己都没进阶搞过爬虫,只是道听途说),基础你随便找资料学就行了,B站视频也很多,大同小异。
进阶主要是逆向,你会发现基本上没有教程,也很少有人讲这方面的东西,爬虫入门简单,深入很难,我推荐你看以下书籍(我认为是必看的):

  • 小白未入门阶段 :《Python 编程从入门到实践》第二版,作者埃里克·马瑟斯(Eric Matthes)
  • 爬虫入门阶段:《Python3 网络爬虫开发实战》第二版,作者崔庆才
  • 反爬套路总结:《Python3 反爬虫原理与绕过实战》,作者韦世东
  • 数据产品+数据产品思维:《爬虫实战:从数据到产品》,作者贺思聪
  • 爬虫逆向进阶:《反爬虫AST原理与还原混淆实战》,作者李岳阳,卓斌;《安卓Frida逆向与抓包实战》作者陈佳林,《爬虫逆向进阶实战》作者李玺


视频方面,我只推荐进阶,也就是逆向相关的视频:
免费:


收费:


推荐多逛一下各大论坛:


PS:很多搞 易语言 的对于逆向很拿手,可以逛逛易语言的一些论坛,重要的是思路,实现的语言无所谓,也可以关注 K 哥公众号,我会分享一些 JS 逆向知识,比较适合新手。

爬虫工具推荐: spidertools

爬虫代理推荐: 快代理 (国内HTTP代理)、 bright data (海外HTTP代理)

爬虫工程师的尽头是 逆向安全工程师

这个错误不是第三方库的原因,是因为那个网站的ssl验证没有通过,可以添加一下verify=False。

详细代码

response = requests.get(url,headers,verify=False)
# verify = False 不在进行SSL验证

如果是库报错的话,常见的库报错形式如下:

ModuleNotFoundError: No module named 'pandas'
#这个代表你没有安装相应的库,只需要 pip install pandas 

还有一个就是

AttributeError: module 'requests' has no attribute 'urlparse'