2022年,人工智能早已成为各行各业科技转型最受关注的“顶流”。然而实际情况是: 大多数AI项目由于种种因素最终无法实现成功部署。 这其中一个重要因素就是 数据质量低或数据不足

解决数据瓶颈问题,购买或使用免费的成品数据集是一个良好的起点。成品数据集的优点主要包括:

在数据安全要求越来越严格的情况下,能够用于部署机器学习模型的数据也就变得更难获取。

通过成品数据集的数据来源,可以了解到数据在创建时是否已纳入偏见检查。

加快进入市场

收集和准备数据通常非常耗时,在速度至关重要的今天,现成的数据集能够快人一步。

许多成品数据集可免费或以较低的价格获得,这在预算有限的情况下不失为一个好的选择。

在本文中,我们收集了现有的42个高质量机器学习数据存储库和数据集,并按照项目类型和行业对它们进行了分类。 点击相应的文字链接即可一键get,马上抱走并分享给小伙伴们吧!

01 数据存储库 / Data Repositories

Kaggle

Kaggle是规模最大的在线数据集存储库之一,涵盖体育、医学和政府等一系列主题。它的平台由社区主导,这意味着用户可以上传自己的数据集。鉴于Kaggle的数据来源多种多样,彻底检查您取自其中的数据集的质量非常重要。此外,Kaggle还提供关于机器学习主题的讨论以及关于关键流程的教程。

Google数据集

Google提供一个数据集搜索引擎,您可以在其中按名称搜索数据集。该引擎允许您按多种功能对数据集进行排序,例如文件类型、主题、最新更新和相关性。它还可以从互联网上的数千个数据库中获取数据集,因此您可以真正地通过广泛的选项进行搜索。数据集的上传者包括众多国际组织,如哈佛大学和世界卫生组织。

Papers with Code

Papers with Code现有超过四千个数据集(还在不断增加)。这些数据集由社区上传。您可以按模态、任务和语言轻松地筛选这些数据集。数据库中还包含指向其他数据库的链接,后者也提供多种数据集。

DataFlair

DataFlair链接到70多个机器学习数据集,还包括源代码和项目思路等有用信息。例如,在包含手写数字的数据集列表中,DataFlair建议创建图像分类算法来识别纸张中的手写数字。利用该网站可以启发新思路。

EliteDataScience

EliteDataScience包括免费数据集和最热门的聚合器的精选列表。这些数据集按用例组织,其中包括可用于深度学习、自然语言处理、网络抓取等的数据集。

UCI机器学习库

UCI拥有500多个机器学习数据集,可按文件类型、任务、应用领域和主题进行排序。其中许多数据集都包含可用于基准测试的学术论文链接。

Github公开数据集

Github提供公共数据集的开源集合。您可以在其中查看目录,选择一个主题,主题涵盖农业、交通等领域。Github还包括一般机器学习模型的集合。大多数链接的数据集都是免费的。

Azure公共数据集

Microsoft Azure拥有一个公共数据集数据库,开发人员可将其用于原型设计和测试。数据库类别包括美国政府和机构数据、其他统计和科学数据以及在线服务数据。此外,您还可以在其中阅读有关SQL以及如何构建移动和Web应用程序的文档。

Snowflake数据集市

Snowflake包括超过175家第三方数据提供商和数据服务提供商的650+个实时和随时可查询的数据集,为数据科学家、商业智能和分析专业人士以及所有希望数据驱动决策的人士提供了便利。

AWS开放数据注册

AWS有一个注册表,其中包含可通过AWS资源获得的数据集。用户可以分享自己的数据集或添加如何使用特定数据集的示例。注册表中有超过280个可搜索的数据集。

KDNuggets

KDNuggets具有全面的数据存储库列表,其中包括各种各样的数据集。列表中包括超过75个数据存储库,其中一些是国际数据存储库。

澳鹏Appen 成品训练数据集

目录包括80多种语言的250+个可授权数据集,涵盖多种方言、机器学习用例及一系列文件类型(文本、图像、视频、语音、音频等)。例如:

▶ 用于广播、呼叫中心、车载和电话应用程序的完全转录语音数据集;

▶ 发音词典,包括通用词汇和特定领域的词汇(例如名称、地点、自然数等);

▶ 带有词性标记的词典和词库;

▶ 带有词法信息和名称实体符号的文本语料库。

02 计算机视觉数据集 / Computer Vision Datasets

ImageNet

ImageNet是根据WordNet层次结构组织的一组名词,其中每个节点都有数千个相关联的图像。该存储库中的数据供研究人员免费使用。

MNIST数据库

MNIST以手写数字图像为特色。其中包括60,000个示例的训练集和10,000个示例的测试集。

IMDB-Wiki数据集

IMDB-Wiki数据集提供最大的人脸图像集合,拥有超过500,000张图像。许多图像来自名人和维基百科。每张图像都附有性别和年龄标签。

LabelMe数据集

LabelMe Dataset使用LabelMe标注工具构建。该工具使用户能够勾勒出对象的轮廓,并为对象添加标签。这个数据集可用于图像识别项目。

MS COCO数据集

MS COCO全称为“Microsoft Common Objects in Context Dataset”,即Microsoft上下文中的常见对象数据集,为解决“上下文中的常见对象”问题而发布。它包含超过120,000张图像,每张图像都有多个与目标检测、分割等图像标注技术相关的标签。数据集中的图像分为91个类别。

Chars74K

Chars74K,顾名思义,它包括74,000张图像。数据包括自然图像中的字符识别(例如,餐厅标志的图像)。

Kinetics-700

Kinetics-700包含一系列主要标注为人类行为的YouTube视频链接。其中有超过65万个视频片段,涵盖700种人类行为。

Places2 Database

Places2 Database是麻省理工学院发布的数据集,包含超过1,000万张图像,涵盖400多个场景。它对场景分类和场景解析等项目很有帮助。

Open Images

Open Images数据集是具有对象位置标注功能的最大数据集之一。它拥有超过900万张图像,每张图像都带有对象边界框、分割和其他标注。总共有1600万个边界框,涵盖600个类别。

MPII人体姿态数据集

MPII人体姿态数据集包括约25,000张涉及410个人体姿态的图像。图像中包含大约40,000个不同的人,每张图像都标注了人体关节。这些图像收集自YouTube视频。

03 自然语言处理数据集 / Natural Language Processing Datasets

Google Blogger Corpus

Google Blogger Corpus包括来自blogger.com的近700,000篇博客文章。每一篇文章至少有200个英语单词。总体而言,这些博客文章包含许多常见的英语单词。

Yelp Reviews

Yelp Reviews数据集涵盖餐厅的排名和评论,包含与此主题相关的丰富信息。该数据集中的评论可用于情感分析项目。

WikiQA语料库

WikiQA语料库是一个问答数据集,由Bing搜索数据编译而成。它包括3,000多个问题,提供29,000个回答句,其中1,500个标注为回答句。

M-AI Labs语音数据集

M-AI Labs语音数据集包括近1,000小时的音频与转录。包括使用多种语言的男性和女性语音。

LibriSpeech

LibriSpeech包括大约1000小时的语音数据,这些数据已经被分段和对齐。这些数据编译自LibriVox项目的有声读物。

WordNet

WordNet是一个按词义分组的英语单词数据库。共有117,000个同义词集(根据同义词配对的单词),然后链接到相关的同义词集。您在下一个文本分类项目就可以使用它。

OpinRank数据集

OpinRank数据集包含来自Edmunds和TripAdvisor的300,000条评论。它们根据旅游目的地、酒店和其他相关因素分类。

多域情感数据集

多域情感数据集包括Amazon.com四个领域的产品评论:DVD、书籍、厨房和电子产品。每个领域都有几千条评论,附有1-5星评级。顾名思义,这个数据集对情感分析项目很有用。

Twitter情感分析

Twitter情感分析数据集包括超过150万条分类推文。数据集的每一行都有一个排名:1表示正面情绪,0表示负面情绪。

20 Newsgroups

20 Newsgroups包含20,000个文档,顾名思义,它来自20多个不同的新闻组。它包含的主题很多,其中一些主题相对相似。该数据集包括三个版本:一个是初始版本,一个是删除日期的版本,还有一个是删除重复的版本。

04 按行业划分的数据集 / Datasets by Industry

政府 - 美国政府数据门户

美国政府数据门户包括美国承诺提供的所有政府数据。通过访问门户,您可以搜索超过300,000个数据集(例如,学生贷款数据和医疗机构收费数据)。

政府 - 欧盟开放数据门户

欧盟开放数据门户提供一种搜索欧盟机构数据的方法,如人口数据、教育数据等。

医疗 - 世界卫生组织

世界卫生组织提供涵盖世界饥饿、医疗保健和疾病等重要主题的数据。

医疗 - 博德研究所

博德研究所提供许多涉及癌症的数据集,涵盖从排序到分类等相关主题。

金融 - Google金融

Google金融包括超过40年的股票市场数据,并连续实时更新。

汽车 - Berkeley DeepDrive

Berkeley DeepDrive由加州大学伯克利分校创建,包括超过100,000个不同地理分布、环境和天气情况的视频剪辑。这些剪辑使用边界框进行标注,以检测对象、车道标线和各种形式的分割。该数据集可以用来帮助训练自动驾驶汽车。

汽车 - Level5

Level5由拼车公司Lyft创建。该数据集包括原始传感器摄像头和激光雷达数据,由众多自动驾驶汽车在特定的地理区域捕获。该数据集使用特定目标对象的三维边界框进行标注。

农业 - USDA开放数据目录

USDA开放数据目录包括美国农业部捕获的数据。主题涵盖从美国农业的测量生产率到食源性疾病的成本估算等领域。

零售 - Fashion-MNIST

Fashion-MNIST包括时装业产品的近60,000张图像和10,000张测试图像,分为10个类别。这些数据对产品分类项目很有用。

零售 - 电子商务搜索相关性

电子商务搜索相关性数据集包括各种产品的功能链接、这些产品在页面上的排名,提供结果的搜索查询以及其他相关属性。其中的数据来自5大英语电子商务网站。

CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32x32,10,000个测试图像。 (类别:airplane,automobile, bird, cat, deer, dog, frog, horse, ship, truck) (作者:Alex Krizhevsky, Vinod ... 点击上方“视学算法”,选择加"星标"或“置顶”重磅干货,第一时间送达作者丨Nikola M. Zivkovic编辑丨极市平台导读本文分享了23个优秀的公共 数据集 ,除了介... 导读:本文主要介绍 机器学习 基础知识,包括名词解释(约30个)、基础模型的算法原理及具体的建模过程。作者:梅子行、毛鑫宇来源: 大数据 DT(ID:hzdashuju)01空间表征在学习深奥... 作为一个为AI时代量身打造的 数据库 系统,Deep Lake正在为众多企业和研究机构提供强大的数据基础设施支持。无论是构建LLM应用,还是训练复杂的深度学习模型,Deep Lake都能提供高效、灵活的数据管理解决方案。随着AI技术的不断发展,Deep Lake也将持续进化,为AI开发者提供更强大的数据处理能力。如果你正在寻找一个能够应对AI时代数据挑战的解决方案,不妨尝试一下Deep Lake。它或许能成为你AI项目的得力助手,帮助你更快、更好地将AI创意转化为现实。 所谓的语料就是我们俗称的“AI训练 数据集 ”,AI训练 数据集 是现代数据分析和 机器学习 的基础。它们是用于构建模型的训练数据、用于评估模型的测试数据和用于推断模型的数据的集合。那么如何定义AI训练 数据集 的高质量呢? 开头还是介绍一下群,如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题,有需求都可以加群群内有各 大数据 库行业大咖,CTO,可以解决你的问题。加群请联系 liuaustin3 ,在新加的朋友会分到2群(共800人左右 1 + 2)以下 数据库 虽然方法和能力各不相同,但所有这些 数据库 都允许您在数据所在的地方构建 机器学习 模型。对于 机器学习 将代码保持在数... 从选择数据源到最佳实践和注意事项,每一个步骤都对最终的 数据集 质量产生着重要影响。数据的收集和准备是数据科学中不可或缺的一环,它决定了后续分析和建模的成败。那么如何打造高质量的 数据集 ? 本文主要介绍scikit-learn 数据库 ,以及里面的几个 数据集 的简单说明。scikit-learn是Python语言开发的 机器学习 库,一般简称为sklearn,目前算是通用 机器学习 算法库中实现得比较完善的库了。其完善之处不仅在于实现的算法多,还包括大量详尽的文档和示例。其文档写得通俗易懂,完全可以当成 机器学习 的教程来学习。以上就是今天的内容~如有问题、建议,请您在评论区留言💬哦。 上面的 数据集 基本上能满足个人起步学习用于 机器学习 、计算机视觉、数据分析、数据挖掘和数据可视化项目。 数据集 机器学习 中非常重要,需要大量的数据,但手头可能缺少数据。但是互联网上的公开数据种类繁多,从日本公开的数据到海外公开的数据都有。如果可以选择适合要构建的系统和目的的 数据集 ,肯定会有所帮助。赶紧下载其中一个 数据集 加入数据分析的行列吧。 人工智能 发展的突破得益于高质量数据的发展。例如,大型语言模型的最新进展依赖于更高质量、更丰富的训练 数据集 :与GPT-2相比,GPT-3对模型架构只进行了微小的修改,但花费精力收集更大的高质量 数据集 进行训练。ChatGPT与GPT-3的模型架构类似,并使用RLHF(来自人工反馈过程的强化学习)来生成用于微调的高质量标记数据。 人工智能 领域以数据为中心的AI,即在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。 原作 mlmemoirs 郭一璞 编译 量子位 报道 | 公众号 QbitAI 外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息, 整理 了一张50个最佳 机器学习 公共 数据集 的榜单,为大家分享一下~ 提前说两个须知: 为成功推出 人工智能 (AI)项目,许多公司正在转向采用外部 数据集 。当今时代,寻找 数据集 比以往任何时候都要容易, 数据集 机器学习 模型的性能也日益重要。有许多站点都托管数据存储库,涵盖主题广泛,从稀有青蛙的图像到笔迹样本,应有尽有。无论您的 机器学习 (ML)项目是什么,您都可以找到相关的 数据集 作为起点。在本文中,我们收集了现有的40多个高质量ML数据存储库和 数据集 的链接。为了便于使用,我们已按照项目类型和行业对它们进行分类。