看PRML、ESL等统计学习经典书籍是否对当前NLP科研有直接的好处?
7 个回答
近年顶会paper几乎都用不到什么ML方法(区别于DL), 它们更多的是根据具体NLP任务的特性提出一些很有效并且很有insight的方法,然后就是搭网络讲故事做实验了。所以说PRML/ESL里绝大多数方法在如今的NLP研究当中是都用不到的。如果想要发paper不如多去思考一下这些任务的特性,然后再想想怎么讲故事怎么设计实验。NLP会毕竟不是ML的会,ML只是一种处理NLP的工具,随着DL的普及,现在的NLP社区早就不是10年前那个统计机器学习横行的年代了。
学PRML/ESL肯定是没有太多直接用途的(除非你的模型直接地需要用到这方面的知识),但是还是会增长你的内功。 学过的应该都知道指数族家族(exponential family)。 NLP里流行的log-linear models (e.g., linear-chain CRFs, semi-Markov CRFs, Tree CRFs)本质上都属于指数族家族。 那么指数族家族的一些良好的性质是可以直接搬过来用,比如说log partition function对score的梯度其实就等于边缘概率分布 [1] [2] ,比如CRF的entropy, 两个CRF之间的cross entropy, KL divergence,以及他们的梯度的通用计算方法 (这之间其实跟bregman divergence有着很深刻的联系,然而NLP社区中又重复发明了很多算这些量的算法)
参考
- ^ Graphical Models, Exponential Families, and Variational Inference (Wainwright and Jordan, 2008) http://people.eecs.berkeley.edu/~wainwrig/Papers/WaiJor08_FTML.pdf
- ^ Inside-Outside and Forward-Backward Algorithms Are Just Backprop (Eisner, 2016) https://aclanthology.org/W16-5901.pdf