• 介绍
  • 图像处理相关
  • 自然语言处理相关
  • 语音处理相关
  • Supplement

通常来说,深度学习的关键在于实践。从图像处理到语音识别,每一个细分领域都有着独特的细微差别和解决方法。

然而,你可以从哪里获得这些数据呢?现在大家所看到的大部分研究论文都用的是专有数据集,这些专有数据集又通常不会公开。那么,想实践那些最新的理论方法往往就成了难题。

如果你也遇到了这样的问题,接下来我们会提供了一系列可用的公开数据集给大家。

在本文中,我们列出了一系列高质量的数据集,每个深度学习爱好者都可以使用这些数据集来提高自己的能力 。应用 这些数据集将使您成为一名更好的数据科学家,并且您从中获得的东西将在您的职业生涯中具有无可估量的价值。我们还收录了具有当前最好结果( SOTA )的论文,供您浏览并改进您的模型。

如何使用这些数据集?

首先要做的事:这些数据集的规模很大!所以请确保你的网络够快,确保下载没有任何限制。

有很多种方式可以使用这些数据集。比如:你可以使用它们来锻炼你的各种深度学习方法技巧;你可以使用它们来磨练你的技能,了解如何识别和构建每个问题,思考独特的使用案例和公布你的新发现!

数据集分为三类:图像处理相关数据集,自然语言处理相关数据集和语音处理相关数据集。

二.图像处理相关数据集

1. MNIST

MNIST 是最受欢迎的深度学习数据集之一。它是一个手写数字数据集,包含一个60,000个样本的训练集和一个10,000个样本的测试集。这是一个很不错的数据集,它可用于在实际数据中尝试学习技术和深度识别模式,并且它花费极少的时间和精力在数据预处理上。

大小 : 约50 MB

数量 : 10个类别,70,000张图片

SOTA Dynamic Routing Between Capsules

2. MS-COCO

COCO是一个可用于object detection, segmentation and caption的大型数据集。有以下特点:

  • 目标分割
  • 上下文关系识别
  • 超像素分割
  • 330K图像(> 200K已标记)
  • 150万个目标
  • 80个分类
  • 91种目标
  • 每张图片5个字幕
  • 包含250,000个人(已标记)

大小 :约25 GB(压缩包)

数量 : 330K张图像,80个对象类别,每个图像5个描述,25万个人(已标记)

SOTA Mask R-CNN

3. ImageNet

https://arxiv.org/pdf/1703.06870.pdf

ImageNet是基于WordNet层次结构组织的图像数据集。WordNet包含约100,000个短语,ImageNet平均提供了约1000个图像来说明每个短语。

大小 :约150GB

数量: 图像总数约1,500,000; 每个都有多个边界框和相应的类标签。

SOTA Aggregated Residual Transformations for Deep Neural Networks

4. Open Images Dataset

Open Images Dataset是一个包含超过900万个链接图像的数据集。其中包含9,011,219张图像的训练集,41,260张图像的验证集以及125,436张图像的测试集。它的图像种类跨越数千个类别,且有图像层级的标注框进行注释。

大小 : 500 GB(压缩包)

数量 : 9,011,219张超过5k标签的图像

SOTA : Resnet 101 image classification model (trained on V2 data): Model checkpoint, Checkpoint readme, Inference code.

5. VisualQA

VQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解视野和语言。有以下有意思的特点:

  • 265,016张图片(COCO和抽象场景)
  • 每张图片至少有3个问题(平均5.4个问题)
  • 每个问题10个基本事实
  • 每个问题3个似乎合理(但可能不正确)的答案
  • 指标自动评估

大小: 25 GB(压缩包)

数量 265,016张图片,每张图片至少3个问题,每个问题10个基本事实

SOTA Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

6. The Street View House Numbers (SVHN)

这是一个为训练目标检测算法而“真实”存在的一个图像数据集–来自于谷歌街景中的房屋号码。它对图像预处理和格式要求较低。与上边提到的MNIST数据集类似,但SVHN包含更多的标记数据(超过600,000个图像)。

大小 : 2.5 GB

数量 : 10个类别,共6,30,420张图片

SOTA Distributional Smoothing With Virtual Adversarial Training

7. CIFAR-10

这个数据集是图像分类的另一个神级入门数据集。它由10个类别60,000个图像组成(每个类在上图中表示为一行)。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分 - 5个训练批次(training batches)和1个测试批次(test batches)。每个批次(batch)有10,000个图像。

大小 :170 MB

数量 :10个类别,共60,000张图片

SOTA ShakeDrop regularization

8. Fashion-MNIST

Fashion-MNIST包含60,000个训练图像和10,000个测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用,因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示,并与10个类别的标签相关联。

大小 :30 MB

数量 :10个类,70,000张图片

SOTA Random Erasing Data Augmentation

三. 自然语言处理相关数据集

1. IMDB Reviews

这对电影爱好者来说是一个极棒的数据集。它可用于着二元情感分类,并具有比此领域以前的任何数据集更多的数据。除了用于训练和测试评论数据外,还有更多未标记的数据可供使用。同时该数据集还包含原始文本和预处理单词格式包。

大小 :80 MB

数量 :25,000条高质量影评用于训练,25,000条用于测试

SOTA Learning Structured Text Representations

2. Twenty Newsgroups

顾名思义,该数据集包含着新闻组相关的文本数据信息。这二十个新闻组数据集合收集了大约20,000新闻组文档,均匀的分布在20个不同的集合。这些文档具有新闻的典型特征:主题,作者和引述。

大小 :20 MB

数量 :来自20个新闻组的20,000条消息

SOTA Very Deep Convolutional Networks for Text Classification ,

3. Sentiment140

Sentiment140是一个可用于情感分析的数据集。使用这个流行数据集来开启你的NLP旅程是完美的。情绪信息已经从数据中预先删除。最终的数据集具有以下6个特征:

  • 推文的感情色彩(polarity)
  • 推文的ID
  • 推文的日期
  • 查看记录
  • 推特(tweeter)的用户名
  • 推文的文本内容

大小 :80 MB(压缩包)

数量 :160,000条推文

SOTA Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets

4. WordNet

在上面的ImageNet数据集中提到,WordNet是一个包含英文synsets的大型数据库。 Synsets是指同义词组,每个描述不同的概念。 WordNet的结构使其成为NLP非常有用的工具。

大小 :10 MB

数量 :通过少量“概念联系”将117,000个同义词集与其他同义词集相关联。

SOTA Wordnets: State of the Art and Perspectives

5. Yelp Reviews

这是Yelp(美国最大的点评网站)为了学习目的而发布的一个公开数据集。它由数百万用户评论、商业类型和来自多个大型城市的超过20万张照片组成。这在全球都是一个非常常用的NLP挑战级数据集。

大小 :2.66 GB JSON,2.9 GB SQL and 7.5 GB Photos(全部已压缩)

数量 :5,200,000条评论,174,000条商业类型,20万张图片和11个大型城市

SOTA Attentive Convolution

6. The Wikipedia Corpus

该数据集是维基百科全文的集合。它包含来自400多万篇文章的将近19亿单词。这是个强大的NLP数据集–你可以通过单词,短语或段落来进行检索。

大小 :20 MB

数量 :4,400,000篇文章,19亿单词

SOTA Breaking The Softmax Bottelneck: A High-Rank RNN language Model

7. The Blog Authorship Corpus

此数据集包含来自数千名博主的博文(收集自blogger.com)。每篇博客都作为一个单独的文件提供。每篇博客至少有着200个常用英语单词。

大小 :300 MB

数量: 681,288博文,超过1.4亿单词

SOTA Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution

8. Machine Translation of Various Languages

该数据集包含四种欧洲语言的训练数据。可用于改进当前的翻译方法。有以下语言互译可供参考:

  • 英汉和汉英
  • 英语 - 捷克语和捷克语 - 英语
  • 英语 - 爱沙尼亚语和爱沙尼亚语 - 英语
  • 英语 - 芬兰语和芬兰语 - 英语
  • 英语 - 德语和德语 - 英语
  • 英语 - 哈萨克语和哈萨克语 - 英语
  • 英文 - 俄文和俄文 - 英文
  • 英语 - 土耳其语和土耳其语 - 英语

大小 :约15 GB

数量 :约30,000,000个句子及其翻译

SOTA Attention Is All You Need

四.语音处理相关数据集

1. Free Spoken Digit Dataset

此列表中的另一个与MNIST数据集相似的数据集!为了解决自然语言处理中的数字识别任务而创建。这是一个公开的数据集,并且希望随着人们贡献更多样本来获得持续增长。目前,它包含以下特点:

  • 3个录音者
  • 1500条录音(每个人每个数字50遍)
  • 英式发音

大小 :10 MB

数量: 1500条音频

SOTA: Raw Waveform-based Audio Classification Using Sample-level CNN Architectures

2. Free Music Archive (FMA)

FMA是一个音乐分析数据集。数据集由音频(full-length and HQ),预先计算的特征( pre-computed features)以及音轨和用户级元数据(metadata)组成。它是一个公开数据集,用来评估MIR中的多项任务。以下是其包含的csv文件列表:

tracks.csv:包含所有(106,574首)曲目的基本信息–ID,标题,艺术家,流派,标签和播放次数。

genres.csv:163种流派的ID(包含名称和之间的关系)

features.csv:基本特征(使用 librosa 提取)。

echonest.csv:由 Echonest (现在的 Spotify )为13129首曲目提供的音频特征。

大小 :约1000 GB

数量 :约100,000曲目(tracks)

SOTA: Learning to Recognize Musical Genre from Audio

3. Ballroom

该数据集由来自舞厅的音频数据组成。以实际音频格式提供了许多舞蹈风格的一些音频片段。有以下特点:

  • 总数:698
  • 单个时长:约30秒
  • 总时长:约20940秒

大小 :14GB(压缩)

数量 :约700个音频样本

SOTA A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles

4. Million Song Dataset

百万歌曲数据集是由一百万首当代流行音乐曲目的音频特征和元数据组成。其目的是:

  • 鼓励对扩展到商业规模的算法进行研究
  • 为评估研究提供参考数据集
  • 作为使用API创建大型数据集的替代方法(g. The Echo Nest)
  • 帮助新研究人员在MIR领域开始工作

数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频,只包含派生的特征。样本音频可以通过使用哥伦比亚大学提供的 代码 7digital 等服务器上获取。

大小:280 GB

数量:一百万首歌曲哦!

SOTA: Preliminary Study on a Recommender System for the Million Songs Dataset Challenge

5. LibriSpeech

该数据集是包含约1000小时英语音频的大型语料库。这些数据来自LibriVox项目的有声读物(audiobooks),且已经过分割、对齐处理。如果您恰好想入门这个领域,请查看已准备好的声学模型(已在 kaldi-asr.org 和语言模型上进行了训练且适合评估),网址为 http://www.openslr.org/11/

大小 :约60 GB

数量 :1000小时音频

SOTA: Letter-Based Speech Recognition with Gated ConvNets

6. VoxCeleb

VoxCeleb是一个大型的语音识别数据集。它由来自YouTube视频中的1,251名明星所讲的约10万句话组成。这些数据性别分布均衡(男性占55%),名人跨越不同的口音、职业和年龄,训练集和测试集之间没有重叠。通过这个数据集可以实现一个有趣的应用–区分和识别超级巨星。

大小:150 MB

数量:1,251位名人的100,000条话语

SOTA: VoxCeleb: a large-scale speaker identification dataset

五.Supplement

Analytics Vidhya Practice Problems:

为了帮助练习,我们还提供了来自DataHack平台,三个更贴近生活的题目(包含问题+数据集)供练手。当然,肯定是深度学习相关,如下:

1. Twitter Sentiment Analysis

含有种族主义和性别歧视言论的推文的处理已成为twitter的难题,那么区分识别这些推文就成了twitter的重要任务。在这个实际问题中,我们提供正常推文与非正常推文两种Twitter数据。你的任务是正确区分这些推文。

大小 :3 MB

数量 :31,962条推文

2. Age Detection of Indian Actors

对于任何深度学习爱好者来说,这都是一个令人着迷的挑战。该数据集由数千个印度演员的图片组成,你的任务是确定他们的年龄。所有图像都是从视频帧中人工剪切的,这致使尺度,姿态,表情,亮度(illumination),年龄,分辨率,遮挡和妆容具有高度可变性。

大小 :48 MB(压缩包)

数量 :训练集19,906幅图像和测试集6636幅图像

SOTA: Hands on with Deep Learning – Solution for Age Detection Practice Problem

3. Urban Sound Classification

这个数据集包含超过8000个来自10个类别的城市声音片段。这个实际问题旨在向你介绍对常用分类场景的音频处理。

大小 :训练集 - 3 GB(压缩),测试集 - 2 GB(压缩)

数量 :10个类别,8732个城市声音片段(单个片段时长<= 4s,已标注)

如果您知道其他公开数据集,可以告诉我们(说明推荐原因、详细用途等等)。

如果理由充分,我会把它们列入清单。来评论里讨论你们的使用感受吧。深度学习万岁! (编译自: https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/

译者: http://www.tensorflownews.com/2018/04/09/25%E4%B8%AA%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E7%9B%B8%E5%85%B3%E5%85%AC%E5%BC%80%E6%95%B0%E6%8D%AE%E9%9B%86/

作者:磐石目录 介绍 图像处理相关 自然语言处理相关 语音处理相关 Supplement一.介绍通常来说,深度学习的关键在于实践。从图像处理到语音识别,每一个细分领域都有着独特的细微差别和解决方法。然而,你可以从哪里获得这些数据呢?现在大家所看到的大部分研究论文都用的是专有数据集,这些专有数据集又通常不会公开。那么,想实践那些最新...
包括LIP、CIHP与ATR三个 数据集 ,其中ATR包括ICCV15_fashion_dataset(ATR),有JPEGImages和SementationClassAug两个部分;LIP包括Testing_images.zip、Train_parsing_reversed_labels.zip、TrainVal_images.zip、TrainVal_parsing_annotations.zip和TrainVal_pose_annotations.zip五个数据包;CIHP包括instance-level_human_parsing,有testing、training和Validations三个部分的 数据集 和human_colormap.mat。
随着尖端 深度学习 的突破,激发了包括土木工程在内的许多领域的众多创新。 但是,土木工程研究社区当前面临的一个基本问题是缺乏可 公开 获取,免费,质量受控且由人注释的大型 数据集 ,该 数据集 支持和驱动土木工程 深度学习 的研究和应用,例如智能交通(包括联网车辆)结构健康监测和桥梁检查。 本文是一般性的讨论,涉及苛刻的需求以及为土木工程及其他领域的研究人员和工程师提供的长期期望的 数据集 ,以提供关键的培训,测试和基准数据。 建立这样一个免费的 数据集 将消除主要的障碍,并促进土木工程领域的 深度学习 研究,我们希望这项工作将促使研究人员,工程师,政府机构甚至计算机科学家共同努力,以开始建立这样的 数据集 。 已经为拟议的数据库开发了一个框架。 此外,还开发了一些试点研究数据库,用于混凝土裂缝检测,使用常规和红外热成像的路面裂缝检测以及行人和骑自行车的人检测。 部署了一个称为Faster RCNN的卷积神经网络模型来检查检测准确性,并获得了所提出 数据集 的98%的检测准确性。
目标值:类别(离散型数据)------分类问题(例如图1对猫狗分类) 分类算法:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归       目标值:连续性数据(房屋价格等)------回归问题(例如图2对房屋价格预测) 回归算法:线性回归、岭回归 2.无监督学习:     CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32x32,10,000个测试图像。     (类别:airplane,automobile, bird, cat, deer, dog, frog, horse, ship, truck)     (作者:Alex Krizhevsky, Vinod N
海量数据(又称大数据)已经成为各大互联网企业面临的最大问题,如何处理海量数据,提供更好的解决方案,是目前相当热门的一个话题。类似MapReduce、 Hadoop等架构的普遍推广,大家都在构建自己的大数据处理,大数据分析平台。  相应之下,目前对于海量数据处理人才的需求也在不断增多,此类人才可谓炙手可热!越来越多的开发者把目光转移到海量数据的处理上。但是不是所有人都能真正接触到,或者有机会去
Transferring Deep Convolutional Neural Networks for the Scene Classification of High-Resolution Remo 所用数据源 WHU-RS Dataset. 从Google Earth(Google Inc.)收集的WHU-RS 数据集 [6]是一个新的 公开 可用的 数据集 ,其包含大小为600×600像素的950幅图像,均匀分布在19个场景类中。一些示例图像如图5所示。我们可以看到,一些类别中的照明,尺度,分辨率和viewpoint-dependent外观的变化使得它比UCM 数据集 更复杂。
数据集 背景: 随着 深度学习 技术在视觉领域的应用和发展,让我们看到了利用AI来自动进行垃圾分类的可能,通过摄像头拍摄垃圾图片,检测图片中垃圾的类别,从而可以让机器自动进行垃圾分拣,极大地提高垃圾分拣效率。 数据集 内容: train_data:训练集目录,包含所有的垃圾图片。 train_label:训练集目录,包含所有的垃圾图片的类别信息。 garbage_classify_rule.json:垃圾分类规则字典,key值是id,value是“垃圾种类/具体物品名”。例如训练数据标签文件img1.txt的内容是“img_1.jpg, 0”,表示img_1.jpg这张图中的垃圾是“其他垃圾/一次性快餐盒”。 train_list.txt/validate_list.txt/test_list.txt:划分好的训练集,测试集和验证集。
The Million Song Dataset is a joint effort between the Computer Audition Lab at UC San Diego and LabROSA at Columbia University. The user data for the challenge, like much of the data in the Million Song Dataset, was generously donated by The Echo Nest, with additional data contributed by SecondHandSongs, musiXmatch, and Last.fm. The Million Song Dataset aims at being the best possible offline evaluation of a music recommendation system. “百万歌曲 数据集 ”是加州大学圣地亚哥分校计算机视听实验室和哥伦比亚大学拉布罗萨实验室共同努力的成果。该挑战的用户数据,就像Million Song 数据集 中的大部分数据一样,都是由Echo Nest慷慨捐赠的,另外还有SecondHandSongs、musiXmatch和Last.fm提供的数据。百万歌曲 数据集 的目标是成为最好的离线音乐推荐系统评估。 MSDChallengeGettingstarted.pdf kaggle_users.txt kaggle_songs.txt taste_profile_song_to_tracks.txt kaggle_visible_evaluation_triplets.txt
你可以考虑将视频抽帧,然后对每一帧图像进行标注,再用这些标注好的图像训练实例分割模型。这样做的优势在于,图像分割模型训练较为成熟,实现方法也比较简单。你可以找一些 公开 的图像分割 数据集 ,比如 PASCAL VOC、COCO 等,然后参考这些 数据集 的标注方法来标注你的 数据集 。 然后你可以使用 深度学习 模型来训练实例分割模型。目前比较流行的实例分割方法有 Mask R-CNN 和 PANet 等。你可以参考这些方法的论文或者代码来实现实例分割模型。 如果你想直接对视频进行标注,并使用这些标注训练视频实例分割模型,我不太确定有没有 相关 的论文或者网络。但是这样做可能会比较困难,因为视频数据比较复杂,实例分割模型也比较难训练。你可以先尝试将视频抽帧,然后对图像进行实例分割,再尝试将结果合并成视频。这样做可能会更简单一些。