自然语言处理
20 newsgroups :分类任务,将出现的单词映射到新闻组 ID。用于文本分类的经典数据集之一,通常可用作纯分类的基准或任何 IR /索引算法的验证。
路透社新闻数据集 :(较旧)纯粹基于分类的数据集,包含来自新闻专线的文本。常用于教程。
宾州树库 :用于下一个单词或字符预测。
UCI‘s Spambase :来自著名的 UCI 机器学习库的(旧版)经典垃圾邮件数据集。根据数据集的组织细节,可以将它作为学习私人垃圾邮件过滤的基线。
Broadcast News :大型文本数据集,通常用于下一个单词预测。
文本分类数据集 :来自 Zhang et al., 2015。用于文本分类的八个数据集合集。这些是用于新文本分类基线的基准。样本大小从 120K 至 3.6M 不等,范围从二进制到 14 个分类问题。数据集来自 DBPedia、亚马逊、Yelp、Yahoo!和 AG。
WikiText :来自维基百科高质量文章的大型语言建模语料库,由 Salesforce MetaMind 策划。
SQuAD :斯坦福问答数据集——应用广泛的问答和阅读理解数据集,其中每个问题的答案都以文本形式呈现。
Billion Words 数据集 :一种大型通用语言建模数据集。通常用于训练分布式单词表征,如 word2vec。
Common Crawl :网络的字节级抓取——最常用于学习单词嵌入。可从 Amazon S3 上免费获取。也可以用作网络数据集,因为它可在万维网进行抓取。
NLP Chinese Corpus 大规模中文自然语言处理语料
腾讯中文词NLP数据集 :该数据包含800多万中文词汇,其中每个词对应一个200维的向量。相比现有的公开数据集,在覆盖率、新鲜度及准确性上大幅提高。在对话回复质量预测、医疗实体识别等自然语言处理方向的业务应用方面,腾讯内部效果提升显著。
NarrativeQA :DeepMind机器阅读理解数据集,是第一个基于整本书或整个剧本的大规模问答数据集。 数据集中该有的所有文档
非正式汉语数据集 :收集了3700万条图书评论和5万条bbs回帖,作为大型非正式汉语数据集(LSICC)。内容来源分别是“豆瓣读书”和Chiphell论坛。 豆瓣读书评论 Chiphell回帖
SQuAD :一个最新的 阅读理解数据集 。该数据集包含 10 万个(问题,原文,答案)三元组,原文来自于 536 篇维基百科文章。
安然数据集 :安然集团高级管理层的电子邮件数据。
Google Books Ngram :来自Google书籍的词汇集合。
博客语料库 :从blogger.com收集的681,288篇博客文章。每个博客至少包含200个常用的英语单词。
维基百科链接数据(Wikipedia Links data) :维基百科全文。该数据集包含来自400多万篇文章,近19亿字。你可以对字、短语或段落本身的一部分进行搜索。
Gutenberg电子图书列表 :Project Gutenberg的附加注释的电子书列表。
Hansards加拿大议会的文本块(Hansards text chunks of Canadian Parliament) :来自第36届加拿大议会记录的130万对文本。
危险边缘 (Jeopardy) :来自问答游戏节目《危险边缘》(Jeopardy) 的超过 20 万个问题的存档。
英文SMS垃圾邮件收集(SMS Spam Collection in English) :包含5,574条英文垃圾邮件的数据集。
Yelp评论(Yelp Reviews) :Yelp发布的一个开放数据集,包含超过500万次评论。
UCI的垃圾邮件库(UCI’s Spambase) :一个大型垃圾邮件数据集,用于垃圾邮件过滤。
亚马逊评论 :包含18年来亚马逊上的大约3500万条评论,数据包括产品和用户信息,评级和文本审核。

问答
Maluuba News QA 数据集 :CNN 新闻文章中的 12 万个问答对。地址:
Quora 问答对 :Quora 发布的第一个数据集,包含重复/语义相似性标签。地址:
CMU Q / A 数据集 :手动生成的仿真问/答对,维基百科文章对其难度评分很高。地址:
Maluuba 面向目标的对话 :程序性对话数据集,对话旨在完成任务或做出决定。常用于聊天机器人。地址:
bAbi :来自 Facebook AI Research(FAIR)的综合阅读理解和问答数据集。地址:
The Children’s Book Test :Project Gutenberg 提供的儿童图书中提取的(问题+背景、答案)对的基线。用于问答(阅读理解)和仿真查找。地址:

Baby AI Image And Question Dataset :一个问题-图像-答案数据集。
Topical Chat数据集 :亚马逊将公布超过最大会话和知识数据集,超410万单词21万句子的语料库将于2019年9月17日发布。主题聊天数据集将包含超过210,000个句子(超过4,100,000个单词),可支持高质量,可重复的研究,将成为研究界公开可用的最大社交对话和知识数据集
数学题海数据集 :DeepMind 发布,包含大量不同类型的数学问题(练习题级别),旨在考察模型的数学学习和代数推理能力。包含 200 万(问题答案)对和 10000 个预生成测试样本,问题的长度限制为 160 字符,答案的长度限制为 30 字符。每个问题类型中的训练数据被分为「容易训练」、「中等训练难度」和「较难训练」三个级别。
GQA图像场景图问答数据集 :斯坦福大学教授 Christopher Manning 及其学生 Drew Hudson 一同打造的,旨在推动场景理解与视觉问答研究领域的进步。包含高达 20M 的各种日常生活图像,主要源自于 COCO 和 Flickr。每张图像都与图中的物体、属性与关系的场景图(scene graph)相关,创建上基于最新清洁版本的 Visual Genome。此外,每个问题都与其语义的结构化表示相关联,功能程序上指定必须采取一定的推理步骤才能进行回答。
Natural Questions数据集 :Google发布一个新的大规模训练和评估开放领域超难问答数据集「自然问题」,能够训练AI阅读维基百科,并找到各种开放领域问题的答案。1、超过30万组问答,其中训练集有307,372组问答,包含152,148组长答案问答和110,724组短答案问答;2、开发示例问答,包含有7830组“一问五答”的问答,也就是同一个问题,找五个人分别从维基百科中寻找答案,以此来衡量QA问答系统的表现;3、测试集有7842组问答。
GQA图像场景图问答数据集 :GQA 是斯坦福大学教授 Christopher Manning 及其学生 Drew Hudson 一同打造的全新图像场景图问答数据集,旨在推动场景理解与视觉问答研究领域的进步。该数据集包含高达 20M 的各种日常生活图像,主要源自于 COCO 和 Flickr。每张图像都与图中的物体、属性与关系的场景图(scene graph)相关,创建上基于最新清洁版本的 Visual Genome。此外,每个问题都与其语义的结构化表示相关联,功能程序上指定必须采取一定的推理步骤才能进行回答。
NLPCC2016KBQA数据集 :基于知识图谱的问答系统,其包含 14,609 个问答对的训练集和包含 9870 个问答对的测试集。并提供一个知识库,包含 6,502,738 个实体、 587,875 个属性以及 43,063,796 个三元组。知识库文件中每行存储一个事实(fact),即三元组 ( 实体、属性、属性值) 。原数据中本只有问答对(question-answer),并无标注三元组(triple), 本人 所用问答对数据来自该比赛第一名的预处理。
HotpotQA :面向自然语言和多步推理问题, 新型问答数据集 ,具有自然、多跳问题的问答数据集,具有支持事实的强大监督,以实现更易于解释的问答系统。
CoQA 斯坦福最新问答数据集 ,囊括来自 7 个不同领域的文本段落里 8000 个对话中的 127,000 轮问答。

推荐系统
Amazon Co-Purchasing :亚马逊评论从「购买此产品的用户也购买了……」这一部分抓取数据,以及亚马逊相关产品的评论数据。适合在网络中试行推荐系统。
Friendster 社交网络数据集 :在变成游戏网站之前,Friendster 以朋友列表的形式为 103,750,348 名用户发布了匿名数据。
Movielens :来自 Movielens 网站的电影评分数据集,各类大小都有。
Million Song 数据集 :Kaggle 上元数据丰富的大型开源数据集,可以帮助人们使用混合推荐系统。
Last.fm :音乐推荐数据集,可访问深层社交网络和其它可用于混合系统的元数据。
Book-Crossing 数据集 :来自 Book-Crossing 社区。包含 278,858 位用户提供的约 271,379 本书的 1,149,780 个评分。
Jester :来自 73,421 名用户对 100 个笑话的 410 万个连续评分(分数从-10 至 10)。
Netflix Prize :Netflix 发布了他们的电影评级数据集的匿名版;包含 480,000 名用户对 17,770 部电影的 1 亿个评分。首个主要的 Kaggle 风格数据挑战。随着隐私问题的出现,只能提供非正式版。
yf_amazon 数据集 :52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据
yf_dianping 数据集 :24 万家餐馆,54 万用户,440 万条评论/评分数据
dmsc_v2 数据集 :28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据
ez_douban 数据集 :5 万多部电影(3 万多有电影名称,2 万多没有电影名称),2.8 万 用户,280 万条评分数据
亚马逊评论 :3500万条来自亚马逊的评论,时间长度为18年。数据包括产品和用户信息、评级等。

情感/观点/评论 倾向性分析
多领域情绪分析数据集 :较旧的学术数据集。
IMDB :用于二元情感分类的较旧、较小数据集。对文献中的基准测试无法支持更大的数据集。
Stanford Sentiment Treebank :标准情感数据集,在每个句子解析树的每个节点都有细粒度的情感注释。
yf_amazon 数据集 :52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据
yf_dianping 数据集 :24 万家餐馆,54 万用户,440 万条评论/评分数据
dmsc_v2 数据集 :28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据
simplifyweibo_4_moods 数据集 :36 万多条,带情感标注 新浪微博,包含 4 种情感, 其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条
weibo_senti_100k 数据集 :10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条
online_shopping_10_cats 数据集 :10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条, 包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店
waimai_10k 数据集 :某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条
ChnSentiCorp_htl_all 数据集 :7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论
多域情感分析数据集(Multidomain sentiment analysis dataset) :一个比较有历史的数据集,里面还有一些来自亚马逊的产品评论。
IMDB评论 : 影评,也是比较有历史的二元情绪分类数据集、数据规模相对较小,里面有 25,000 条电影评论。
斯坦福情感树银行(Stanford Sentiment Treebank) :带有情感注释的标准情绪数据集。
Sentiment140 :一个流行的数据集,它使用16万条推文,并把表情等等符号剔除了。
Twitter 美国航空公司情绪数据集 (Twitter US Airline Sentiment) :自 2015 年 2 月以来美国航空公司的 Twitter 数据,分类为正面、负面和中性推文。

中文命名实体识别
dh_msra 数据集 :5 万多条中文命名实体识别标注数据(包括地点、机构、人物)

安然数据集:安然集团高级管理层的电子邮件数据。亚马逊评论:3500万条来自亚马逊的评论,时间长度为18年。数据包括产品和用户信息、评级等。Google Books Ngram:来自Google书籍的词汇集合。博客语料库:从blogger.com收集的681,288篇博客文章。每个博客至少包含200个常用的英语单词。维基百科链接数据(Wikipedia Links data):维基百科全文。...
There are two corpora - mostly English (trec06p) and Chinese (trec06c). trec06p/full/ -- Ideal feedback English corpus trec06p/full-delay/ -- Delayed feedback English corpus trec06c/full/ -- Ideal feedback Chinese corpus trec06c/delay/ -- Delayed feedback Chinese corpus
Newswire: [0001-0325, 0400-0454, 0500-0540, 0600-0885, 0900-0931, 4000-4050]——后缀.nw.raw    Magazine articles: [0590-0596, 1001-1151]——后缀.mz.raw    Broadcast news:[2000-3145, 4051...
目录简介NLTK常用语料库和词典资源停用词常用语料库常用词典常用 自然语言处理 工具集分句标记解析Tokenization词性标注POS Tagging其他工具补充1:中文的处理工具LTP NLTK,Natural Language Toolkit是一个Python模块,提供了多种语料库(Corpora)和词典(Lexicon)资源,比如WordNet等,以及一系列基本的 自然语言处理 工具集,包括:分句,标记解析(Tokenization),词干提取(Stemming),词性标注(POS Tagging)和
2选取停用词词典 ->去除停用词的影响 3选取同义词词典 ->增加表达多词同意的能力 4选取比较长的固定搭配词典,比如成语,乐队名字等,增加分词正确率通过以上词典将每一句评论转换成one hot 向量,作为训练数据与测试验证 数据集 二、spark 训练 使用spark的朴素贝叶斯训练数据import sparl. 在 自然语言处理 的一个重要分支领域——机器翻译中,句法分析占据着核心的地位,句法分析也是 自然语言处理 的核心技术,是机器理解语言的关键部分。句法分析的主要任务是识别出句子所包含的句法成分以及这些成分之间的关系,通常会以句法树来表示句法分析的结果。本次分享将 介绍 句法分析相关的技术。 句法分析是决定 自然语言处理 进度的关键部分。句法分析主要有一下两个障碍:歧义和搜索空间。自然语言区别于人工语言的一个重要特点就是它存在着大量的歧义现象。人们可以依靠大量的先验知识有效的消除掉歧义,而在机器学..
NLP中常用的PTB语料库,全名Penn Treebank。Penn Treebank是一个项目的名称,项目目的是对语料进行标注,标注内容包括词性标注以及句法分析。 语料来源为: 19 89年华尔街日报语料规模:1M words,2499篇文章语料价格:1500 ~ 1700$ Penn Treebank委托Linguistic Data Consortium (LDC) 发行与收费,这意味着你想...
GLUE 数据集 合的 介绍 : 自然语言处理 (NLP)主要自然语言理解(NLU)和自然语言生成(NLG)。GLUE(General Language Understanding Evaluation)由纽约大学, 华盛顿大学, Google联合推出, 涵盖不同NLP任务类型, 截止至2020年1月其中包括11个子任务 数据集 , 成为衡量NLP研究发展的衡量标准. GLUE九项任务涉及到自然语言推断、文本蕴含、情感分析、语义相似等多个任务。像BERT、XLNet、RoBERTa、ERINE、T5等知名模型都会在此基
自然语言处理 1 NLP是什么 自然语言处理 (NLP,Natural Language Processing)是研究计算机处理人类语言的一门技术,目的是弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距。NLP包含句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索、问答系统和对话系统等领域。 2 课程推荐 CS224n 斯坦福深度 自然语言处理 课 17版中文字幕: https://www.bilibili.com/video/av41393758/?p=1
对于 rml2018.01a 数据集 的处理代码,我们需要了解这个 数据集 的具体内容和结构。rml2018.01a 数据集 是一个开源 数据集 ,用于辅助物联网设备上无线信号分类的研究。该 数据集 包括成百上千个 IQ 信号记录,每个记录都是一段,由实部和虚部组成的向量,并且都是通过软件定义无线电设备从不同种类的无线设备上捕获到的。 要处理这个 数据集 ,我们需要首先下载它,并将它们存储在本地文件夹中。在这个过程中,我们需要确保文件名和文件路径正确。接下来,我们可以使用 Python 或 Matlab 等编程语言进行数据处理和分析。 在处理代码方面,我们需要读取 数据集 ,对数据进行预处理,包括缺失值处理、异常值处理、数据清洗等,然后进行数据转换和标准化。对于信号分类问题,我们需要对信号进行特征选择、特征提取和降维等处理,然后使用监督学习算法(如 SVM、决策树、逻辑回归等)进行分类模型的训练和测试,最后选出最优的模型。在模型评估和结果分析方面,我们可以使用性能指标(如精度、召回率、F1 分数等)来评估分类器的性能,并使用可视化工具(如 Matplotlib 或 Seaborn)来图形化展示结果。 总之,rml2018.01a 数据集 的处理代码需要结合 数据集 的具体内容和研究问题的要求,灵活运用各种数据处理和分析技术,以达到更好的分析和解决问题的效果。