如果网页内容是由javascript生成的,应该怎么实现爬虫呢?

需要抓取的html是javascript执行之后生成的,所以需要先模拟javascript的运行,请问这种情况下应该怎么实现网络爬虫呢? 我倒是找到了…
关注者
739
被浏览
180,234

27 个回答

那些动用浏览器内核(PhantomJS、Selenium等)的方案都太重了,

上面链接中的博客通过抓取拉勾网 Ajax 请求的数据示例讲解了如何抓取前端渲染的网页,也就是题主说的 「网页内容是由 JavaScript 生成的」,摘抄如下:

链接:http://xlzd.me/2015/12/19/python-crawler-04
来源:xlzd 杂谈