Python 爬虫如何获取 JS 生成的 URL 和网页内容?

想尝试爬下北邮人的论坛,但是看到页面的源代码都是js,几乎没有我想要的信息。
关注者
2,380
被浏览
798,867

47 个回答

今天偶然发现了PyV8这个东西,感觉就是你想要的。

它直接搭建了一个js运行环境,这意味着你可以直接在python里面执行页面上的js代码来获取你需要的内容。

参考:

silverna.org/blog/? code.google.com/p/pyv8/

js代码是需要js引擎运行的 ,Python只能通过HTTP请求获取到HTML、CSS、JS原始代码而已。

不知道有没有用Python编写的JS引擎,估计需求不大。

我一般用

PhantomJS

CasperJS

这些引擎来做浏览器抓取。

直接在其中写JS代码来做DOM操控、分析,以文件方式输出结果。

让Python去调用该程序,通过读文件方式获得内容。