浅谈机器学习
来源:雪球App,作者: voliucano,(https://xueqiu.com/7015618536/242630326)
机器学习的三大流派,主要包括符号主义、联结主义、和行为主义。分别模仿了人类的思维、人类的硬件(神经系统)、人类的行为。符号主义强调通过符号、概念、规则来表达智能,这也是我们人类的思维活动的方式,人类容易抽象一些概念、道理来进行推理。联结主义仿造人类的大脑的神经元结构,将他们如同神经元突触般串联、并联起来以拟合复杂的对应关系。行为主义则是通过不断尝试和反馈来调整机器的行为。这些流派之间的讨论和碰撞可以追溯到上世纪计算机发明之前。
这十几年来,联结主义成为主流,主要原因是硬件计算能力的加强,尤其是GPU在批量的矩阵运算上强大的能力,让人们可以构造更深、更有效的神经网络。只要神经元的数目和层数足够多,网络就有拟合复杂映射的潜能。而让这些神经元调整自己的状态则是通过大量的数据进行训练和反馈,如果模型输出结果和预期的结果差别比较大,就会得到更大的惩罚并修正模型的神经元。多次迭代后神经网络就能逐渐符合我们的预期。
反馈的方式有三种:
1. 有监督学习 是我们给了输入和输出,让模型拟合出一个函数来找到对应关系。比如模型对图像进行分类、识别。这种学习需要我们给定大量标注。
2. 无监督学习 是不给定人工标注让模型自己训练,我们把自监督学习也放在这个范畴。我们可以强制让很多人脸压缩到低维的向量表示,再让这个向量恢复到原来的人脸,这样我们可以认为这个向量就表达了人脸的重要的特征。我们也可以在句子上挖空,让语言模型根据上下文恢复被挖掉的空。ChatGPT一开始就是在大量无标注的语料上自主训练的。
3. 强化学习 是指给智能体一个环境让智能体自己探索。智能体的探索会得到环境反馈,会得到奖励或者惩罚。智能体根据反馈不断调整自己的策略和对环境的认知。强化学习是典型的行为主义的思想。很多游戏棋牌就是通过强化学习的方式来训练得到智能体。强化学习里面有不少人生哲学,比如,许多强化学习算法在智能体年轻的时候会鼓励他多探索,多试错以见多识广、积累经验,到老的时候则期望他根据自己的经验做事,少冲动,要稳。有些算法则是模仿现实生活的某些机构,构建了执行机关和监督机关,来反思和监督自己。
三种流派、三种反馈的方式也在互相融合。比如生成对抗网络中有两部分,一部分干活、一部分评价,评价的这部分则是借鉴了强化学习的思想。再比如,ChatGPT就包含前期在大语料上的无监督学习和后期的监督学习和强化学习。再比如,一些工作把一些符号主义的推理加入到深度网络中也有不错的提升。
然而大部分深度学习网络在大量数据学到的知识和我们已有的符号的规则往往不兼容,比如我们想要在一个训练好的模型去注入一些我们的知识或者提取出一些知识,通常并不那么容易。这也就是可解释性问题、伦理问题的由来。我们可以借助一些方法来打开黑盒,但盒子越大,解释起来就越难。
下面我零碎地列出一些挑战。这些挑战不一定有答案:也许是某种巧妙的新模型架构,也许是新的算法,也许是数据量、计算量堆上去量变达到质变,也许我们可以在原子里造计算机(划掉)。
1. 模型之前的模型: 尽管现在的机器学习很强大,但他们大部分还是人们在分析认识数据之后的建模。如果我们一开始的认知从原理上来说就走不通,那不管模型看起来效果多好都是缘木求鱼。比如我们拿历史股票数据去预测未来的走势,但是如果起决定因素的不在训练数据里,而是外部因素导致的,虽然训练结果可能看起来效果挺好也是白费(当然了也许可以骗钱)。在让人工智能来参与一些任务之前,需要人在巨大的、非结构化的、高维的数据中先探索并建立起认知的模型,确定需要学习的任务,这个过程可能经验丰富的人可以做到,但是这种经验很难表达出来,也许下一代的人工智能应该学会自己应该学的任务。
2. 人在回路中的学习: 许多机器学习方法往往是一批人从事模型架构,一批人标注数据,一批人使用。几批人的分割让迭代的过程变得低效。未来的趋势应该是构建统一的框架,让模型与人交互:交互中学习、学习中交互。这是更为有效的方式,但这个框架可能更加复杂。
3. 知识溯源问题: 所有的人工智能都是为人服务的工具,更具体的是帮助人从现实世界获取有价值的知识或者帮助决策。如果我们给他们的定位不只是玩具,而是助手,那可靠的知识溯源必不可少。现有的模型可以生成以假乱真的文本、图像,但无人为他们负责。以ChatGPT为例,它总是可以生成很像人的话,但里面的事实可能不可靠。比如你问他“张飞为何在华容道放走曹操”,“孙悟空为啥爱上林黛玉”他也可以胡诌出不少“原因”。这个问题的本质还是,现有的语言模型没有真正分析数据、分析问题的能力,它可能看起来在这么做,但往往给人带来更大的麻烦,因为用户需要具有判断结果是不是真实的能力。这也是为什么LeCun推荐只把ChatGPT这类大语言模型当成写作助手的原因(不过大语言模型在润色方面真的牛,直接抹平我们和native speaker的差距。除了车轱辘话的场景,我们都要认真审核他说的每个事实)。
4. 数据标注问题: 带有标注的数据往往是昂贵的,所以我们期待能有更小的人工标注来完成更多任务。AlphaGo和ChatGPT之所以出圈其本质都是他们可以在大量无需标注的数据上学到很多知识。比如AlphaGo 在环境和规则给定之后可以与自己对弈学习,而GPT-3在几十 TB 爬取的文本上面学习。