机器学习需要的大量数据集从哪里找?

学习用途
关注者
2,603
被浏览
1,418,689

54 个回答

整理了一下常见的综合性数据集、CV计算机视觉数据集和NLP自然语言处理数据集,持续更新中。

一、综合性机器学习数据集

1. Google数据集搜索引擎

类似Google Scholar的一个数据集搜索引擎,唯一的缺点是从国内访问的话需要科学上网。

Google Dataset Search

2. CMU - ML和AI数据

CMU的一个ML/AI指南,不仅包括了如何找ML/AI的数据集,还包括了找ML/AI相关的书籍、文章以及文献管理、研究可重复性的相关资源。

CMU ML and AI LibGuides

3. UCI Machine Learning Repository:

这是一个很经典的ML数据集网站,在ML的paper当中经常会遇到基于这些数据集做的实验。UCI机器学习数据集目前共收纳了将近500个数据集,并将这些数据集按数据类型(univariate、multivariate、time-series等)和机器学习任务(classification、regression、recommendation systems等)分类。其中有不少数据是已经清洗好的,可以拿来直接使用。

UCI Machine Learning Repository

4. Kaggle Datasets

Kaggle是Google旗下的一个机器学习社区,拥有十分丰富的各种类型的数据集,经常会举办各种ML竞赛。Kaggle的优点是每个数据集都会有相应的讨论和代码可以参考,其中不乏大神级别的思路和算法,很适合实践自己学到的ML知识。强烈推荐!

Kaggle

5. 阿里云天池

天池是阿里巴巴旗下的类似Kaggle的一个竞赛型平台,对于母语中文的学习者来说没有语言门槛。跟Kaggle一样,对于各个阶段的ML学习者都非常友好,专门有帮助萌新入门ML大赛的新手指南。同样十分推荐!

二、计算机视觉(CV)数据集

1. VisualData

VisualData是一个计算机视觉数据集平台,目前还在进一步完善建设当中。它收集了最近的CV顶会paper的相关数据,并且按照主题进行了分类,大多数数据都提供了对应的paper和code,并且允许用户申请上传自己的数据集。用户体验十分友好。

VisualData.io

2. ImageNet

CV领域最知名的图像数据集之一。ImageNet是根据WordNet的层次结构所组织。目前已有几千万的图片已经被手工标注,至少一百万的图像还提供了边界框。

3. Google’s Open Images

Google搜集的900多万个图像数据集的链接,其中相当一部分部分都已经被标注好了,目前共有超过6000种不同的图像数据。

4. Youtube-8M

Google自家的800多万的Youtube视频数据,共计500,000多个小时的视频,都已经被lable好了。目前网络上最庞大的公开的视频数据集。

5. UMass室外人脸数据集

UMass的室外人脸数据集,目前共收集了5749个人的13233张照片。

6. MIT室内场景集

MIT的室内场景数据集,目前包含67个室内类别和15620个图像。

7. VisualGenome

Visual Genome 数据集是Stanford 大学维护的图像及图像内容语义信息的数据集,相比于著名的 ImageNet 图像标注数据集,Visual Genome 附加了更为丰富的语义信息,用以拓展更加丰富的基于图像及语义信息的人工智能应用。目前包括108077 张图片、540 万区域内容描述(Region Descriptions)、170 万图像内容问答(Visual Question Answers)、380 万对象案例(Object Instances)、280 万属性(Attributes)、230 万关系(Relationships)。

8. COIL100

COIL100是一个物体图片数据库,包含了以360度旋转的每个角度拍摄的100个不同的物体的照片。

三、自然语言处理(NLP)数据集

1. HotspotQA

HotspotQA是一个由Stanford和CMU等学校的NLP研究人员所维护的一个问答型数据集。网站上面又一个leaderboard板块,列出了各个数据目前最好的算法和相应的表现。

2. Google图书的N-grams数据集

3. Blogger语料库

blogger.com 收集的681288个博客帖子的集合,每个博客至少包含200个的常用英语单词。

4. 维基百科数据集

Wikipedia的全文数据,包含来自超过400万篇文章的近19亿个单词。

5. 亚马逊评论数据集

包含了直到2013年3月的18年的亚马逊评论数据,共约3500万条评论。 数据包括产品和用户信息、评分以及纯文本的评论内容。

6. Yelp评论数据集

Yelp官方提供的数据集,同时举办了基于此数据的nlp challenge。目前共计192609个商家的数据及相应的6685900条评论,其中还包含了二十多万张图片。


7. 垃圾英文短信数据集

共包含了5574个英文SMS垃圾短信。

8. 安然数据集

来自安然高级管理人员的电子邮件数据,共涉及约150个人。