54 个回答
整理了一下常见的综合性数据集、CV计算机视觉数据集和NLP自然语言处理数据集,持续更新中。
一、综合性机器学习数据集
1. Google数据集搜索引擎
类似Google Scholar的一个数据集搜索引擎,唯一的缺点是从国内访问的话需要科学上网。
2. CMU - ML和AI数据
CMU的一个ML/AI指南,不仅包括了如何找ML/AI的数据集,还包括了找ML/AI相关的书籍、文章以及文献管理、研究可重复性的相关资源。
3. UCI Machine Learning Repository:
这是一个很经典的ML数据集网站,在ML的paper当中经常会遇到基于这些数据集做的实验。UCI机器学习数据集目前共收纳了将近500个数据集,并将这些数据集按数据类型(univariate、multivariate、time-series等)和机器学习任务(classification、regression、recommendation systems等)分类。其中有不少数据是已经清洗好的,可以拿来直接使用。
4. Kaggle Datasets
Kaggle是Google旗下的一个机器学习社区,拥有十分丰富的各种类型的数据集,经常会举办各种ML竞赛。Kaggle的优点是每个数据集都会有相应的讨论和代码可以参考,其中不乏大神级别的思路和算法,很适合实践自己学到的ML知识。强烈推荐!
5. 阿里云天池
天池是阿里巴巴旗下的类似Kaggle的一个竞赛型平台,对于母语中文的学习者来说没有语言门槛。跟Kaggle一样,对于各个阶段的ML学习者都非常友好,专门有帮助萌新入门ML大赛的新手指南。同样十分推荐!
二、计算机视觉(CV)数据集
1. VisualData
VisualData是一个计算机视觉数据集平台,目前还在进一步完善建设当中。它收集了最近的CV顶会paper的相关数据,并且按照主题进行了分类,大多数数据都提供了对应的paper和code,并且允许用户申请上传自己的数据集。用户体验十分友好。
2. ImageNet
CV领域最知名的图像数据集之一。ImageNet是根据WordNet的层次结构所组织。目前已有几千万的图片已经被手工标注,至少一百万的图像还提供了边界框。
3. Google’s Open Images
Google搜集的900多万个图像数据集的链接,其中相当一部分部分都已经被标注好了,目前共有超过6000种不同的图像数据。
4. Youtube-8M
Google自家的800多万的Youtube视频数据,共计500,000多个小时的视频,都已经被lable好了。目前网络上最庞大的公开的视频数据集。
5. UMass室外人脸数据集
UMass的室外人脸数据集,目前共收集了5749个人的13233张照片。
6. MIT室内场景集
MIT的室内场景数据集,目前包含67个室内类别和15620个图像。
7. VisualGenome
Visual Genome 数据集是Stanford 大学维护的图像及图像内容语义信息的数据集,相比于著名的 ImageNet 图像标注数据集,Visual Genome 附加了更为丰富的语义信息,用以拓展更加丰富的基于图像及语义信息的人工智能应用。目前包括108077 张图片、540 万区域内容描述(Region Descriptions)、170 万图像内容问答(Visual Question Answers)、380 万对象案例(Object Instances)、280 万属性(Attributes)、230 万关系(Relationships)。
8. COIL100
COIL100是一个物体图片数据库,包含了以360度旋转的每个角度拍摄的100个不同的物体的照片。
三、自然语言处理(NLP)数据集
1. HotspotQA
HotspotQA是一个由Stanford和CMU等学校的NLP研究人员所维护的一个问答型数据集。网站上面又一个leaderboard板块,列出了各个数据目前最好的算法和相应的表现。
2. Google图书的N-grams数据集
3. Blogger语料库
从 http:// blogger.com 收集的681288个博客帖子的集合,每个博客至少包含200个的常用英语单词。
4. 维基百科数据集
Wikipedia的全文数据,包含来自超过400万篇文章的近19亿个单词。
5. 亚马逊评论数据集
包含了直到2013年3月的18年的亚马逊评论数据,共约3500万条评论。 数据包括产品和用户信息、评分以及纯文本的评论内容。
6. Yelp评论数据集
Yelp官方提供的数据集,同时举办了基于此数据的nlp challenge。目前共计192609个商家的数据及相应的6685900条评论,其中还包含了二十多万张图片。
7. 垃圾英文短信数据集
共包含了5574个英文SMS垃圾短信。
8. 安然数据集
来自安然高级管理人员的电子邮件数据,共涉及约150个人。
也许你已经手撕了好几遍《数学统计方法》、《西瓜书》、《机器学习实战》等经典书籍,熟练掌握了各种常用的机器学习算法的原理和推导,却不知道怎么应用于实际场景中;也许你正在入门机器学习,但每次学不过三分钟就已经昏昏欲睡,从此你发现了一个极好的助眠方法。
无论你属于哪种情况,都仅仅可以定位为机器学习初学者。
因为学习大数据分析和学习程序开发不一样之处在于,如果你学习小程序开发,完全可以结合自己的实际做一个实用的小程序、如果你学后端开发,购买一个十元每个月的云服务器就可以搭建自己的专属服务器。
而大数据分析/机器学习本质上就是一门如何让数据发挥作用的学科,需要分析大量的数据来增加实践经验,否则就是空中楼阁。单纯的闭门造车并不能成为一个合格的大数据分析师/机器学习算法工程师。宝剑锋从磨砺出,你还需要在实践中打磨自己的技术,将理论与实践相结合。
日常生活中,个人很难产生大量数据用来练手,所幸的是,目前网上有好多数据挖掘竞赛平台,在这里,你可以免费获得大量的数据,如果能调教出一个排名靠前的模型,甚至可以拿到奖金并写在自己的简历上成为求职的砝码;在这里,你可以与全国乃至全球的算法高手比拼、交流。宝剑锋从磨砺出,多在这些平台上和高手切磋,才是精进自己武艺的绝妙之选。
下面,就介绍几个机器学习领域最有名的平台及其各自的特点:
一、阿里天池
链接:
阿里天池是我最推荐的一个平台,首先,作为国内互联网梯队的老大哥,阿里的算法实力和业内影响力当然也是国内首屈一指的。其次,依托于阿里云创新中心,在这里进行中的比赛可能是国内最多的。
天池大数据竞赛平台已经成为国内算法大佬聚集场所,但是大多数比赛与实际业务场景结合非常紧密,再加上高手云集,所以想在比赛中获得好的成绩难度还是比较大的。
除了参加进行中的比赛,你也可以使用一些阿里提供的免费计算资源来实现自己的想法。
错过了自己想参加的比赛?不用急,在“技术圈”这个栏目里,有很多历届比赛中积累下的丰富资料和经验供你学习。不过很遗憾的是,很多已经结束的比赛下载不了数据集来自己来实践一下(我观察到包括kaggle等平台也是这个规定)。
在“AI学习”一览里,还有很多免费的公开课,包括一些大赛优秀团队分享、比赛决赛答辩会的现场录像以及一些比较系统的课程。
点击页面底部的合作方机构,也可以直接跳转到对应的合作方在天池平台上发布的免费课程。
值得一提的是,在 天池课堂 里,还有一些比较系统的入门课程。
如果你最近在研究《机器学习实战》这本书,课堂里的《机器学习实战》导读系列可以帮助你更好的理解这本书。
二、kaggle
链接:
Kaggle大赛的名气自不必说,Kaggle 比赛的奖金非常丰厚,都是用dollar来计量的,一般前三名均可以获得奖金。重金之下必有勇父,所以竞争还是很激烈的,随之而来的,里边积淀的历届比赛精华也很多。而且比赛按照难易分为以下几个档次:
◆
Featured
:商业或科研难题,奖金一般较为丰厚;
◆
Recruitment
:比赛的奖励为面试机会;
◆
Research
:科研和学术性较强的比赛,也会有一定的奖金,一般需要较强的领域和专业知识;
◆
Playground
:提供一些公开的数据集用于尝试模型和算法;
◆
Getting Started
:提供一些简单的任务用于熟悉平台和比赛;
◆
In Class
:用于课堂项目作业或者考试。
你可以根据自己的状况选择,比如说著名的“泰坦尼克号生存预测”就是kaggle上比较经典的入门赛。
但kaggle平台虽说内容丰富,但毕竟是国外的网站,网页加载速度比较慢,而且没有中文页面,对于英语基础比较差的童鞋来说极其不友好。
另外,在使用kaggle的过程中,一定不能错过kaggle官方的交流社区,一些比赛的冠军团队一般会把思路和代码分享在这里。他们两的作用,就像咖啡和咖啡伴侣、课本和练习册,一个提供问题,一个提供参考答案与赛题交流。
三、KDD-cup
链接:
KDD-cup是目前数据挖掘领域最有影响力、最高水平的国际顶级赛事,每年都会吸引世界数据挖掘界的顶尖专家、学者、工程师、学生等前来参赛,被外界誉为大数据领域的奥运会。
KDD本来就是一个数据挖掘相关的会议,成绩优秀还可以顺带产出论文,所以很多高校和企业的实验室会参加。xgb的发明者陈天奇博士就是KDDCup12的冠军。所以说这个比赛是真正的全球诸神打架,难度可想而知,不太适合初学者参加。
同Kaggle一样,KDD也存在着语言障碍和加载速度慢等问题。
四、DataCastle
链接:
可以看到这些比赛奖金也是挺诱人的。
当然,在“文献资料”区也提供了一些往届比赛又有团队的分享资料,更重要的是,如果你将要面临找工作的头疼问题,这个平台还提供了一些面试题。这些面试题都是由DataCastle从百度、腾讯等企业的网络公开招聘题中精选出来的,而且附上了详细解析和解题思路,非常适合数据分析岗位面试前的准备。
另外,DataCastle旗下还有一个DC学院,提供一些付费的课程以及少量免费课程。至于付费课程的价格嘛,emmm……,我是觉得有点感人,有需求的土豪请随意。
五、科赛(Kesci)
链接:
提供了一个在线计算平台K-Lab,
(一)比赛项目
这个平台的特点就是整体比赛难度较低,相应地奖金较少(咱也不是冲着拿奖去的是吧),很多比赛都是由高校组织,参与者大多都是在校学生。这是我当时参加的一个计算机视觉类的比赛,因为当时放假,归心似箭就回家去了。通过远程控制实验室的服务器进行远程调试,还经常断线,所以随便做了三五天熟悉了一下流程,简单地提交了几次就放弃了,达成了我们的队名“骚一波就走”的既定方针。就这样也差点闯入复赛,可见比赛难度不高,所以非常推荐新手来这里练手。
(二)数据集
如果你没有那么多精力,或者官网暂时没有你擅长领域的比赛,也可以点击“数据集”,下载公开的数据集来练手。
但是这些数据集没有好的项目实践,只能
(三)任务
如果你创意能力强,对大数据的应用有足够的想法,还可以参加赛题征集任务。
(四)教程
当然,如果你是一个初学者,只是想看看数据分析的流程,这里这里也有一些教程和项目,都是基于jupyter的,可以一边学习一边实践。整体看了一下,教程偏入门,对于初学者比较友好。
六、其他
数据挖掘比赛其实是一个非常耗费精力的比赛,在实践过程中,选择以上提到的一个到两个平台重点研究就足够了,下面再附上几个其他平台作为补充,供大家参考。
1、DataFountain
主要用来参加CCF大赛。CCF是由中国计算机学会主办,高校共同发起的计算机高水平大学生竞赛。主要面向大学生群体。里边好多人工智能大赛主要也是由计算机学会发起。
2、腾讯广告算法大赛
每年上半年举办,好处是非参赛时间也可以看看往届的赛题和数据集来研究研究。
3、JDATA智汇平台
京东旗下的大数据竞赛平台,上边公布的比赛较少。但是在该平台上整理了优秀团队的分享公开课,很好地做到了大赛的知识积淀,有空可以去学习一下。
链接:
最后,做一个各平台链接汇总:
1、阿里天池: 天池大数据众智平台-阿里云天池
2、kaggle: Your Home for Data Science
3、KDD-CUP: KDD 2019 | KDD Cup 2019
4、DC竞赛: DC竞赛-大数据竞赛平台
5、Kesci: 和鲸社区 - Kesci.com
6、Datafountain: CCF指定专业大数据及人工智能竞赛平台-DataFountain
7、腾讯广告算法大赛: 腾讯广告算法大赛
8、JDATA智汇平台: JDATA智汇平台
另外,针对机器学习入门学习者,我还写了一篇利用scikit-learn预置数据集来入门机器学习的文章。感兴趣的可以看看。
数据集准备好之后就是“烹饪”了,对于零基础入门数据分析师的“厨师”来说,推荐一个比较好的学习平台:夜曲编程。他可以通过一整套的完善培养体系,帮助你尽快入门数据分析。
这是百词斩旗下的一款学习产品,之前也推荐过他们的Python教程,但其实他们还有非常好的数据分析课程。
首先,他的教学理念非常符合我一直提倡的编程学习方法——在实践中学习,因为编程是一个实操性很强的技能,并不是简单看书就能学会的,以下四张图希望大家牢记:
数据分析基础课程整个学习环节也非常流畅,首先每节课程前先介绍学习目标,学习过程中会不断搜集代码卡和概念卡(概念卡是用生动形象的图文比喻帮助理解编程专业概念,代码卡是拆解代码语法格式,便于更扎实的掌握代码写法)一张张搜集这些卡片的过程,也给人一种类似于玩游戏的快感,爽到根本停不下来。课程结尾会附上精美的知识导图便于从宏观把控本节内容。学习结束还会进行学习总结,并给予小小的鼓励。
百题斩就更有意思了,很多带有趣味场景的题目,让你在这些简单的数据中立马利用刚学会的知识解决实际问题,达到学以致用的目标。
最重要的是,他提供了简单上手的数据集和编程环境,甚至贴心地把准备代码都写好了,只保留核心代码给你填空。这点很重要,因为在初期入门数据分析时,如果把大量的时间浪费在找数据集和配置编程环境中,很容易“从入门到放弃”。
最后,夜曲编程也提供了多个学习,手机端适用于在通勤等碎片化时间通过代码卡和概念卡复习知识点,电脑端适用于利用集中安静的时间进行编程练习。
目前有个6元体验课 一杯奶茶即可体验正价课的前6节。
20200130补充:
谷歌最近出了一个数据集搜索引擎,绝对是人工智能学习者寻找数据集的强大工具,对本篇回答里所有的寻找数据集的方法绝对是降维打击,详情请看:
20201103补充:评论区知友推荐,下边这个网址也可以免费快速下载国外的数据集
以后也会持续补充更新,欢迎点赞转发收藏三连走起~