看PRML、ESL等统计学习经典书籍是否对当前NLP科研有直接的好处?

具体的说,当前NLP的研究中是否还有一个研究方向跟传统统计学习在方法论上相同或相似?这是一个比较“功利”的问题,也许也是大部分人在学习一个东西前会疑惑…
关注者
75
被浏览
27,444

7 个回答

近年顶会paper几乎都用不到什么ML方法(区别于DL), 它们更多的是根据具体NLP任务的特性提出一些很有效并且很有insight的方法,然后就是搭网络讲故事做实验了。所以说PRML/ESL里绝大多数方法在如今的NLP研究当中是都用不到的。如果想要发paper不如多去思考一下这些任务的特性,然后再想想怎么讲故事怎么设计实验。NLP会毕竟不是ML的会,ML只是一种处理NLP的工具,随着DL的普及,现在的NLP社区早就不是10年前那个统计机器学习横行的年代了。

学PRML/ESL肯定是没有太多直接用途的(除非你的模型直接地需要用到这方面的知识),但是还是会增长你的内功。 学过的应该都知道指数族家族(exponential family)。 NLP里流行的log-linear models (e.g., linear-chain CRFs, semi-Markov CRFs, Tree CRFs)本质上都属于指数族家族。 那么指数族家族的一些良好的性质是可以直接搬过来用,比如说log partition function对score的梯度其实就等于边缘概率分布 [1] [2] ,比如CRF的entropy, 两个CRF之间的cross entropy, KL divergence,以及他们的梯度的通用计算方法 (这之间其实跟bregman divergence有着很深刻的联系,然而NLP社区中又重复发明了很多算这些量的算法)

参考

  1. ^ Graphical Models, Exponential Families, and Variational Inference (Wainwright and Jordan, 2008) http://people.eecs.berkeley.edu/~wainwrig/Papers/WaiJor08_FTML.pdf
  2. ^ Inside-Outside and Forward-Backward Algorithms Are Just Backprop (Eisner, 2016) https://aclanthology.org/W16-5901.pdf

先说结论,对当下包括NLP在内绝大多数基于深度学习研究没有直接帮助。如果你想去工业界、快速发顶会顶刊、只想要学位,短期内看这些书是不划算的。但是我建议,有志于深入机器学习研究的学生,在入门阶段最好兼顾PRML这类书籍的学习。

我主要研究概率模型在传统工业的应用,与PRML等书籍知识联系算相当密切了。本领域2015年前有些2-3区论文甚至直接照搬经典书籍上的模型。即便到了2019年,一些顶刊上的模型本质上也是经典模型的微拓展或者融合。但是,在我看来,至少从数学上来说,这些论文多数是无法指摘的。

在我所研究领域,可以明显发现,1. 从2016年开始,深度学习开始火爆,到如今新发表的顶刊论文几乎是深度学习相关。2. 2019年后的深度学习论文逐步失去了满篇公式推导的风格,更关注有效tricks的提出,一篇论文公式大概20条,主要围绕损失函数的设计。跟一些传统概率模型动辄100多条公式推导相比,理论工作浅太多了。3. 多数顶刊论文深度学习方面idea,尤其是首次出现于本领域研究范畴,但又有明显NLP、CV、信息安全等风格的idea,基本都能在2016年及以前的顶会上找到原型。因此截止2021年,本领域深度学习平均水准仍然大幅低于2016年机器学习顶会水准。

在某些非线性场景下,深度学习有效性的确优于传统概率模型;但是在一些特定场景下(特指我在的领域),深度学习研究还太浅,导致有效性不行。

目前,深度学习比传统模型更容易发论文。不谈顶会,只看IEEE顶刊,IEEE TII、TIE、TNNLS、Cybernetics上有些深度学习文章的idea,不否认效果好,但在我这类从经典模型入门的研究者看来都太主观了,导致我一直怀疑,这种风气下,很多学生在数学基础不够时去研究tricks,理论研究不深入但论文却收获满满,难道不会造成恶性循环吗?