Python 爬虫如何获取 JS 生成的 URL 和网页内容？

Question

想尝试爬下北邮人的论坛，但是看到页面的源代码都是js，几乎没有我想要的信息。

关注者

2,380

被浏览

798,867

js代码是需要js引擎运行的 ，Python只能通过HTTP请求获取到HTML、CSS、JS原始代码而已。

不知道有没有用Python编写的JS引擎，估计需求不大。

我一般用

、

这些引擎来做浏览器抓取。

直接在其中写JS代码来做DOM操控、分析，以文件方式输出结果。

让Python去调用该程序，通过读文件方式获得内容。

知乎用户 · Accepted Answer

今天偶然发现了PyV8这个东西，感觉就是你想要的。

它直接搭建了一个js运行环境，这意味着你可以直接在python里面执行页面上的js代码来获取你需要的内容。

参考：