练习机器学习的23个最佳公共数据集介绍及适用范围推荐

你是否厌倦了Iris数据集的例子？我的意思是，不要误会我的意思，对于初学者来说，这是一个很好的数据集，然而，还有更多有趣的公共数据集，你可以用来练习 机器学习 和 深度学习 。在这篇文章中，我试图提到并描述一些我最喜欢的数据集。除了数据的描述和样本外，还介绍了这些数据集的使用问题。
1.帕尔默企鹅数据集

这是迄今为止我最喜欢的数据集。我在最新的书中用它来做大部分的例子。从本质上讲，如果你厌倦了在Iris数据集上的尝试，你可以试试这个。它是由Kristen Gorman博士和南极洲LTER的Palmer站创建的。这个数据集基本上由两个数据集组成，每个数据集包含344只企鹅的数据。
就像Iris数据集一样，有3个不同种类的企鹅来自帕尔默群岛的3个岛屿。这三类企鹅是阿德利企鹅、钦斯特拉企鹅和巴布亚企鹅。如果'Gentoo'听起来很熟悉，那是因为Gentoo Linux是以它的名字命名的!此外，这些数据集包含了每个物种的涵洞尺寸。喙是鸟类喙的上脊。在简化的企鹅数据中， culmen的长度和深度被重新命名为变量 culmen_length_mm和 culmen_depth_mm。
1.2 数据集的样本

让我们加载数据，看看它是什么样子的：
data = pd.read_csv(f".\\Datasets\\penguins_size.csv")
data.head()
请注意，我们使用Pandas库来实现数据的可视化。另外，我们正在加载一个比较简单的数据集。
1.3 这个公共数据集最适合用于...
这是一个练习解决分类和聚类问题的好数据集。在这里，你可以尝试各种分类算法，如决策树、随机森林、SVM，或者将其改编为聚类问题，练习使用无监督学习。
1.4 有用的链接
你可以找到更多关于PalmerPenguins数据集的信息并下载它。
Github
Kaggle
2.共享单车需求数据集
这个数据集真的很有趣。对于初学者来说，它有点复杂，不过，这也是它适合练习的原因。它包含了华盛顿特区的首都自行车共享计划中的自行车租赁需求数据。特别是这个，包含了关于旅行时间、出发地点、到达地点的信息，并且明确记录了所经过的时间，但它也包含了关于每个特定小时和一天的天气信息。
2.1 数据集的样本
让我们加载数据，看看它是什么样子的。首先，我们对数据集的每小时部分进行分析：
data = pd.read_csv(f".\\Datasets\\hour.csv")
data.head()
下面是每日数据的情况：
data = pd.read_csv(f".\\Datasets\\day.csv")
data.head()
2.3 这个公共数据集最适合用于...
由于这个数据集所包含的信息种类繁多，它很适合用来练习解决回归问题。你可以尝试在它上面使用多元线性回归，或者使用神经网络。
2.4 有用的链接
你可以找到更多关于数据集的信息，并从以下网站下载。
Kaggle
3.葡萄酒分类数据集
这是一个经典案例。特别是如果你喜欢葡萄，或者打算成为酒商。这个数据集由两个数据集组成。这两个数据集都包含了葡萄牙Vinho Verde地区的葡萄酒的化学计量，一个是红葡萄酒，另一个是白葡萄酒。由于隐私限制，没有关于葡萄种类、葡萄酒品牌、葡萄酒销售价格的数据，但是有关于葡萄酒质量的信息。
3.2 数据集的样本
让我们加载数据，看看它是什么样子的：
data = pd.read_csv(f".\\Datasets\\winequality-white.csv")
data.head()
3.3 这个公共数据集最适合用于...
这是一个多类分类问题，但也可以被看作是一个回归问题。这些类别是不平衡的（例如，正常的葡萄酒比优秀或差的葡萄酒多得多），这对于在不平衡的数据集中练习分类是很好的。除此之外，不是所有的特征都是相关的，所以也可以练习特征工程和特征选择。
3.4 有用的链接
你可以找到更多关于数据集的信息并下载它。
4.波士顿住房数据集
我知道我说过我将尽量不推荐大家都推荐的数据集，但这个数据集是古老的黄金。著名的波士顿住房数据集被用于许多教程、例子和书籍中，这是有原因的。这个数据集由14个特征组成，包含美国人口普查局收集的关于马萨诸塞州波士顿地区的住房信息。这是一个小型的数据集，只有506个样本。
4.2 数据集的样本
让我们加载数据，看看它是什么样子的：
data = pd.read_csv(f".\\Datasets\\boston_housing.csv")
data.head()
4.3 这个公共数据集最适合用于...
这个数据集非常适合练习回归任务。请注意，由于这是一个小数据集，你可能会得到乐观的结果。
4.4 有用的链接
你可以从以下链接中找到更多关于数据集的信息并下载它。
Kaggle
5.电离层数据集
这是另一个老的数据集。它实际上起源于1989年。然而，它真的很有趣。这个数据集包含由拉布拉多鹅湾的一个雷达系统收集的数据。这个系统由16个高频天线的相控阵组成，旨在探测电离层的自由电子。一般来说，电离层中有两类结构。"好 "和 "坏"。这些雷达探测到这些结构并通过信号。有34个自变量和一个依赖变量，总共有351个观测值。
5.2 数据集的样本
让我们加载数据，看看它是什么样子的：
data = pd.read_csv(f".\\Datasets\\ionsphere.csv")
data.head()
5.3 这个公共数据集最好用于...
这显然是一个二元（2类）分类问题。有趣的是，这是一个不平衡的数据集，所以你也可以这样练习。在这个数据集上实现高准确率也是不容易的，基线性能约为64%，而最高准确率为94%左右。
5.4 有用的链接
你可以找到更多关于这个数据集的信息，并从以下地方下载它。
6.时尚MNIST数据集
MNIST数据集是一个著名的用于练习图像分类和图像识别的数据集。然而，它有点被过度使用。如果你想要一个简单的数据集来练习图像分类，你可以试试FashionMNIST。它被用于《机器学习终极指南》中的图像分类实例。
实质上，这个数据集是MNIST数据集的一个变种，它的结构与MNIST数据集相同，即它有一个由60000个样本组成的训练集和一个由10000个衣服图像组成的测试集。所有的图像都经过了尺寸标准化和中心化处理。图像的大小也被固定为28×28，因此预处理图像数据被最小化。它也可以作为一些框架的一部分，如TensorFlow或PyTorch。
6.2 数据集的样本
让我们加载数据，看看它是什么样子的：
6.3 这个公共数据集最适合用于...
图像分类和图像生成的任务。你可以用简单的卷积神经网络（CNN）试试，或者用它来生成图像，使用**生成对抗网络（GANs）**。
6.4 有用的链接
你可以找到更多关于PalmerPenguins数据集的信息，并从以下地方下载它。
Github
Kaggle
7.猫与狗的数据集
这是一个包含猫和狗的图像的数据集，当然，它也会被包括在这个列表中 🙂 这个数据集包含23262张猫和狗的图像，它被用于二元图像分类。在主文件夹中，你会发现两个文件夹train1和test。
train1文件夹包含训练图像，而test文件夹包含测试图像（duh！）。请注意，图像名称以猫或狗开头。这些基本上是我们的标签，这意味着目标将使用这些名称来定义。
7.2 数据集的样本
让我们加载数据，看看它是什么样子的：
7.3 这个公共数据集最好用于...
这个数据集的目的有两个方面。首先，它可以用于练习图像分类，也可以用于物体检测。第二，它是一个无尽的 "嗷嗷叫 "的来源 🙂
7.4 有用的链接
你可以找到更多关于数据集的信息并下载它。
Kaggle
8.乳腺癌威斯康星州（诊断）数据集
在医疗领域使用机器学习和深度学习技术的情况正在稳步增加。如果你想练习一下，看看如何处理这些数据，这个数据集是一个不错的选择。在这个数据集中，数据是通过处理乳腺肿块的细针抽吸（FNA）的数字化图像提取的。该数据集中的每个特征都描述了在所述数字化图像中发现的细胞核的特征。
数据集由569个实例组成，包括357个良性实例和212个恶性实例。这个数据集有三种类型的特征，其中实值特征最有趣。它们是从数字化的图像中计算出来的，包含面积、细胞的半径、纹理等信息。
8.2 数据集的样本
让我们加载数据，看看它是什么样子的：
data = pd.read_csv(f".\\Datasets\\breast-cancer-wisconsin.csv")
data.head()
8.3 这个公共数据集最适合用于...
这是一个医疗保健数据集，适合用于练习分类和玩转算法，如随机森林、SVM等。
8.4 有用的链接
你可以找到更多关于PalmerPenguins数据集的信息并下载。
Kaggle
9.Twitter情感分析和Sentiment140数据集
在过去的几年里，情感分析成为监测和理解客户反馈的基本工具之一。这种方式对信息和回应所携带的潜在情感基调的检测是完全自动化的，这意味着企业可以更好更快地了解客户的需求，并提供更好的产品和服务。
这是通过应用各种NLP（自然语言处理）技术完成的。这些数据集可以帮助你练习这种技术，事实上，它非常适合这一领域的初学者。Sentiment140包含使用Twitter API提取的1,600,000条推文。它们的结构略有不同。
9.2 数据集的样本
让我们加载数据，看看它是什么样子的：
data = pd.read_csv(f".\\Datasets\\training.1600000.processed.noemoticon.csv")
data.head()
9.3 这个公共数据集最适合用于...
如前所述，这是一个用于情感分析的数据集。情感分析是最常见的文本分类工具。它是分析文本片段以确定情绪的过程，无论它们是积极的、消极的还是中立的。了解品牌和产品的社会情绪是现代企业的基本工具之一。
9.4 有用的链接
你可以从以下网站找到更多关于数据集的信息并下载。
Kaggle
Kaggle
10.BBC新闻数据集
让我们停留在一个类似的类别，探索另一个有趣的文本数据集。这个数据集来自BBC新闻。它由2225篇文章组成，每篇文章都有标签。有5个类别：科技、商业、政治、娱乐和体育。该数据集没有失衡，每个类别中的文章数量都差不多。
10.2 数据集的样本
让我们加载数据，看看它是什么样子的：
data = pd.read_csv(f".\\Datasets\\BBC News Train.csv")
data.head()
10.3 这个公共数据集最好用于...
自然，这个数据集最好用于文本分类。你也可以更进一步，分析每篇文章的情感。总的来说，它很适合各种NLP任务和实践。
10.4 有用的链接
你可以找到更多关于数据集的信息并下载它。
Kaggle
11. 垃圾邮件短信分类器数据集
垃圾邮件检测是最早被用于互联网的机器学习任务之一。这项任务也属于NLP和文本分类工作。因此，如果你想练习解决这类问题，垃圾短信数据集是一个不错的选择。它在文献中被大量使用，对初学者来说是很好的。
这个数据集真正酷的地方在于，它是由互联网的多个来源建立的。例如，425条垃圾短信是从Grumbletext网站上收集的，3375条短信是从新加坡国立大学的NUS短信语料库（NSC）中随机选择的，450条短信来自Caroline Tag的博士论文，等等。数据集本身由两列组成：标签（火腿或垃圾邮件）和原始文本。
11.2 数据集的样本
让我们加载数据，看看它是什么样子的：
ham What you doing?how are you?
ham Ok lar... Joking wif u oni...
ham dun say so early hor... U c already then say...
ham MY NO. IN LUTON 0125698789 RING ME IF UR AROUND! H*
ham Siva is in hostel aha:-.
ham Cos i was out shopping wif darren jus now n i called him 2 ask wat present he wan lor. Then he started guessing who i was wif n he finally guessed darren lor.
spam FreeMsg: Txt: CALL to No: 86888 & claim your reward of 3 hours talk time to use from your phone now! ubscribe6GBP/ mnth inc 3hrs 16 stop?txtStop
spam Sunshine Quiz! Win a super Sony DVD recorder if you canname the capital of Australia? Text MQUIZ to 82277. B
spam URGENT! Your Mobile No 07808726822 was awarded a L2,000 Bonus Caller Prize on 02/09/03! This is our 2nd attempt to contact YOU! Call 0871-872-9758 BOX95QU
11.3 这个公共数据集最好用于......
顾名思义，这个数据集最好用于垃圾邮件检测和文本分类。它在求职面试中也经常被使用，所以它对练习o
11.4 有用的链接
你可以找到更多关于数据集的信息，并从以下地方下载它。
Kaggle
12.CelebA数据集
如果你想研究人脸检测解决方案，建立你自己的人脸生成器，或者创建你的深度伪造模型，这个数据集是你的首选。这个数据集有超过20万张名人图片和每张图片的40个属性注释，为你的研究项目提供了一个良好的起点。同时，它涵盖了大量的姿势和背景变化。
12.2 数据集的样本
让我们加载数据，看看它是什么样子的：
12.3 这个公共数据集最适合用于...
我们可以用这个数据集解决多个问题。首先，我们可以研究各种人脸识别和计算机视觉问题。它可以用于生成具有不同生成算法的图像。最后，你可以用它来开发你的新的深度伪造模型或用于深度伪造检测的模型。
12.4 有用的链接
你可以找到更多关于数据集的信息并下载它：
13.优酷网-8M数据集
这是最大的多标签视频分类数据集。它来自谷歌，有800万个分类的YouTube视频及其注释和ID。注释是由YouTube视频注释系统使用48000个视觉实体的词汇创建的。这个词汇表也可供下载。
请注意，这个数据集是以TensorFlow记录文件的形式提供的。除此之外，你可以查看这个数据集的扩展--YouTube-8M段数据集。它包含人类验证的片段注释：
使用命令下载它们。
mkdir -p ~/yt8m/2/frame/train
cd ~/yt8m/2/frame/train
curl data.yt8m.org/download.py | partition=2/frame/train mirror=us python
13.2 这个公共数据集最好用于...
你可以用这个数据集做很多事情。你可以利用这个数据集参加谷歌的比赛，并开发能够准确分配视频级别标签的分类算法。
你可以做的另一件事是在没有预算的情况下创建视频分类模型。最后，你可以找到并分享被称为时间概念定位的特定视频时刻。
13.3 有用的链接
你可以找到更多关于数据集的信息，并从这里下载。
14.亚马逊评论数据集
简而言之，情感分析是最常见的文本分类工具。它是分析文本片段以确定情绪的过程，无论它们是积极的、消极的还是中立的。了解你的品牌、产品或服务的社会情绪，同时监测在线对话是现代企业的基本工具之一，而情绪分析是实现这一目标的第一步。这个数据集包含来自亚马逊的产品评论和元数据，包括2.331亿条评论，时间跨度为1996年5月至2018年10月。
14.2 这个公共数据集最好用于...
这是一个用于创建任何产品的情感分析的启动模型的数据集。你可以用它来快速拥有一个可以在生产中使用的模型。
14.3 有用的链接
你可以找到更多关于数据集的信息并下载它。
信息和下载
15.纸币鉴别数据集
这是一个有趣的数据集。你可以用它来创建可以检测真钞和假钞的解决方案。这个数据集包含了一些从数字化图像中提取的措施。图像是用一个通常用于印刷品检查的工业相机制作的。图像为400x400像素。它是一个干净的数据集，有1372个例子，没有缺失值。
15.2 数据集的样本
让我们加载数据，看看它是什么样子的：
data = pd.read_csv(f".\\Datasets\\data_banknote_authentication.csv")
data.head()
15.3 这个公共数据集最适合用于...
这是一个很好的数据集，可以用来练习二元分类和应用各种算法。此外，你还可以修改它，将其用于聚类，并想出用无监督学习的方法对这些数据进行聚类的算法。
15.4 有用的链接
你可以找到更多关于数据集的信息，并从以下地方下载它。
Kaggle
16.LabelMe数据集
LabelMe是另一个计算机视觉数据集。LabelMe是一个带有地面真实标签的大型图像数据库。它被用于物体检测和识别。注释来自两个不同的来源，包括LabelMe在线注释工具。
简而言之，有两种方法可以利用这个数据集。你可以通过LabelMe Matlab工具箱下载所有的图像，或者通过LabelMe Matlab工具箱在线使用这些图像。
16.2 数据集的样本
贴了标签的数据看起来像这样：
16.3 这个公共数据集最好用于
这是一个很好的数据集，用于研究物体检测和物体识别解决方案。




    

16.4 有用的链接
你可以找到更多关于数据集的信息并下载它。
信息和下载
17.声纳数据集
如果你对地质学感兴趣，你会发现这个数据集相当有趣。它是通过使用声纳信号制作的，由两部分组成。第一部分，名为 "sonar.mines"，包含111个图案，这些图案是由声纳信号在不同角度和不同条件下从一个金属圆柱体上反弹而来。
第二部分，名为 "sonar.rocks"，由97个图案组成，同样是通过反弹声纳信号获得的，但这是在岩石上进行的。它是一个不平衡的数据集，有208个例子，60个输入特征和一个输出特征。
17.2 数据集的样本
让我们加载数据，看看它是什么样子的：
data = pd.read_csv(f".\\Datasets\\sonar.csv")
data.head()
17.3 这个公共数据集最适合用于...
这个数据集非常适用于练习二元分类。我们的目标是检测输入的是矿还是石头。这是一个有趣的问题，因为最高的结果达到了88%的准确率。
17.4 有用的链接
你可以找到更多关于数据集的信息并下载它。
18.Pima Indians Diabetic Dataset
这是另一个用于练习分类的医疗数据集。它源于 美国国家糖尿病和消化道及肾脏疾病研究所。其目的是根据某些诊断测量结果，预测病人是否患有糖尿病。
这个数据集包含768个观测值，有8个输入特征和1个输出特征。它不是一个平衡的数据集，假定缺失值被替换为0。
18.2 数据集的样本
让我们加载数据，看看它是什么样子的：
data = pd.read_csv(f".\\Datasets\\pima-indians-dataset.csv")
data.head()
18.3 这个公共数据集最适合用于...
这是另一个适合练习二元分类的数据集。
18.4 有用的链接
你可以找到更多关于数据集的信息，并从这里下载。
Kaggle
19.小麦种子数据集
这个数据集非常有趣而且简单。它对初学者来说非常好，可以用来代替Iris数据集。这个数据集包含属于三个不同品种的小麦的种子信息。卡玛、罗莎和加拿大。它是一个平衡的数据集，每个类别有70个实例。使用软X射线技术检测了内部果核结构的测量。
19.2 数据集的样本
让我们加载数据，看看它是什么样子的：
data = pd.read_csv(f".\\Datasets\\seeds_dataset.csv")
data.head()
19.3 这个公共数据集最适合用于...
适合于磨练分类技能。
19.4 有用的链接
你可以找到更多关于数据集的信息，并从以下地方下载。
Kaggle
20.Jeopardy!问题数据集
这是一个漂亮的数据集，包含216,930个Jeopardy问题、答案和其他数据。对于你的NLP项目来说，这是一个出色的数据集。除了问题和答案之外，这个数据集还包含了关于问题的类别和价值的信息。
20.2 数据集的样本
让我们加载数据，看看它是什么样子的:
data = pd.read_csv(f".\\Datasets\\joepardy.csv")
data.head()
20.3 这个公共数据集最好用于...
这是一个丰富的数据集，可用于多种用途。你可以运行分类算法，预测问题的类别，或问题的价值。然而，你能用它做的最酷的事情可能是训练 BERT 模型。
20.4 有用的链接
你可以找到更多关于数据集的信息，并从以下地方下载。
Kaggle
21.阿鲍鱼数据集
从本质上讲，这是一个多分类问题，然而，这个数据集也可以被视为一个回归问题。目标是使用提供的措施来预测鲍鱼的年龄。该数据集是不平衡的，4177个实例有8个输入变量和1个输出变量。
21.2 数据集的样本
让我们加载数据，看看它是什么样子的:
data = pd.read_csv(f".\\Datasets\\abalone.csv")
data.head()
21.3 这个公共数据集最好用于
这个数据集既可以作为回归任务，也可以作为分类任务。这是一个使用多元线性回归、SVM、随机森林等算法的好机会，或者建立一个可以解决这个问题的神经网络。
21.4 有用的链接
你可以找到更多关于数据集的信息，并从以下地方下载。
Kaggle
22.虚假新闻数据集
我们生活在一个古怪的时代。无论我们喜欢与否，假新闻、深度造假和其他类型的欺骗是我们日常生活的一部分。这个数据集提供了另一个真正适合练习的NLP任务。它包含了有标签的真实和虚假新闻，以及它们的文本和作者。
22.2 数据集的样本
让我们加载数据，看看它是什么样子的:
data = pd.read_csv(f".\\Datasets\\fake_news\\train.csv")
data.head()
22.3 这个公共数据集最好用于...
这是另一项NLP文本分类任务。
22.4 有用的链接
你可以从以下地方找到更多关于数据集的信息并下载它。
Kaggle
23.ImageNet数据集
最后但并非最不重要的是，所有计算机视觉数据集的国王--ImageNet。这个数据集是任何新的深度学习和计算机视觉的基准。没有它，深度学习的世界就不会以今天的方式被塑造出来。ImageNet 是一个大型图像数据库 ，按照WordNet的 层次结构 组织 。这意味着，每个实体都有一组词和短语来描述，这些词和短语被称为 "synset"。每一个synset都有大约1000张图片。基本上，层次结构的每个节点都由成百上千的图像来描述。
23.2 这个公共数据集最适合用于...
它是学术界和研究界的数据集。它的主要任务是图像分类，然而，你可以利用它来完成各种不同的任务。
23.3 有用的链接
你可以找到更多关于数据集的信息并下载它。
在这篇文章中，我们有机会探索了23个数据集，这些数据集是练习应用机器学习的好材料。
谢谢你的阅读!