栗子 发自 凹非寺
量子位 报道 | 公众号 QbitAI
一只萌新,想把自己修炼成一个成熟的
NLP
研究人员,要经过一条怎样的路?
有个名叫Tae-Hwan Jung的韩国小伙伴,做了一份完整的
思维导图
,从基础概念开始,到NLP的常用方法和著名算法,知识点全面覆盖。
可以说,从0到1,你需要的都在这里了:
这份精致的资源刚刚上线,不到一天Reddit热度就超过
400
,获得了连篇的赞美和谢意:
“肥肠感谢。”“我需要的就是这个!”“哇,真好啊!”
所以,这套丰盛的思维导图,都包含了哪些内容?
就算你从前什么都不知道,也可以从第一个版块开始入门:
1 概率&统计
从中间的灰色方块,发散出5个方面:
基础
(Basic) ,
采样
(Sampling) 、
信息理论
(Information Theory) 、
模型
(Model) ,以及
贝叶斯
(Baysian) 。
每个方面,都有许多知识点和方法,需要你去掌握。
毕竟,有了概率统计的基础,才能昂首挺胸进入第二个板块。
2 机器学习
这个版块,一共有7个分支:
线性回归
(Linear Regression) 、
逻辑回归
(Logistic Regression) 、
正则化
(Regularization) 、
非概率
(Non-Probabilistic) 、
聚类
(Clustering) 、
降维
(Dimensionality Reduction) ,以及
训练
(Training) 。
掌握了机器学习的基础知识和常用方法,再正式向NLP进发。
3 文本挖掘
文本挖掘,是用来从文本里获得高质量信息的方法。
图上有6个分支:
基本流程
(Basic Procedure) 、
图
(Graph) 、
文档
(Document) 、
词嵌入
(Word Embedding)、
序列标注
(Sequential Labeling) ,以及
NLP基本假设
(NLP Basic Hypothesis)。
汇集了NLP路上的各种必备工具。
4 自然语言处理
装备齐了,就该实践了。这也是最后一张图的中心思想:
虽然只有4个分支,但内容丰盛。
一是
基础
(Basic) ,详细梳理了NLP常用的几类网络:循环模型、卷积模型和递归模型。
二是
语言模型
(Language Model) ,包含了
编码器-解码器模型
,以及
词表征到上下文表征
(Word Representation to Contextual Representation) 这两部分。许多著名模型,比如
BERT
和
XLNet
,都是在这里得到了充分拆解,也是你需要努力学习的内容。
三是
分布式表征
(Distributed Representation) ,许多常用的词嵌入方法都在这里,包括
GloVe
和
Word2Vec
,它们会一个个变成你的好朋友。
四是
任务
(Task) ,机器翻译、问答、阅读理解、情绪分析……你已经是合格的NLP研究人员了,有什么需求,就调教AI做些什么吧。
看完脑图,有人问了:是不是要把各种技术都实现一下?
韩国少年说:
不不,你不用把这些全实现一遍。找一些感觉有趣的,实现一波就好了。