GitHub 上有哪些优秀的 Java 爬虫项目？

Question

GitHub 上有哪些优秀的 Java 爬虫项目？

关注者

4,784

被浏览

1,041,335

33 个回答

HitTheRoad

1.nutch
地址： apache/nutch · GitHub
apache下的开源爬虫程序，功能丰富，文档完整。有数据抓取解析以及存储的模块。而且这玩意儿还包括了一个开箱即用的搜索引擎，安装好就可以搜索了。

2.Heritrix
地址： internetarchive/heritrix3 · GitHub
很早就有了，经历过很多次更新，使用的人比较多，功能齐全，文档完整，网上的资料也多。有自己的web管理控制台，包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台。

3.crawler4j
地址： yasserg/crawler4j · GitHub
因为只拥有爬虫的核心功能，所以上手极为简单，几分钟就可以写一个多线程爬虫程序。

当然，上面说的nutch有的功能比如数据存储不代表Heritrix没有，反之亦然。具体使用哪个合适还需要仔细阅读文档并配合实验才能下结论啊~

还有比如 JSpider ， WebEater ， Java Web Crawler ， WebLech ， Ex-Crawler ， JoBo 等等，这些没用过，不知道。。。

ps：来前任网骂一骂前任

编辑于 2018-08-06 17:26

路人甲 编程话题下的优秀答主 · Accepted Answer

1、Gecco

github地址：

xtuhcy/gecco

Gecco是一款用java语言开发的轻量化的易用的网络爬虫。整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等框架，只需要配置一些jquery风格的选择器就能很快的写出一个爬虫。Gecco框架有优秀的可扩展性，框架基于开闭原则进行设计，对修改关闭、对扩展开放。

2、WebCollector

github地址：

CrawlScript/WebCollector