原标题:Why Machine Learning: 我应该学机器学习吗?
“机器学习”(Machine Learning)无疑越来越多地出现于媒体与我们身边。机器学习究竟是什么?对于经管或社科类的学者或学生,一个重要的问题是,“我应该学机器学习吗”?换言之,不掌握机器学习的机会成本是什么?本文就以问答的形式来回答这些问题。
Q:
什么是机器学习?
A:
简单说,机器学习就是让机器(计算机)具备从数据中自主学习的能力。它的反面就是“硬编码”(hard coding)。假设你想写一个程序,让计算机识别正常邮件与垃圾邮件。硬编码的方法就是,由人类写下判别垃圾邮件的规则,再告诉计算机。此时,计算机并不学习,只是严格执行人类的死板分类规则。可以想象,硬编码的效果不会太好,因为人类虽可直观判定垃圾邮件,但并不知道自己是怎么做到的。
反之,机器学习的方法则给予计算机大量的邮件,经过人类事先标注为垃圾邮件或正常邮件,然后让计算机找出这两类邮件的差异规律(比如不同词的词频差异),并用学到的规律(其实就是一个函数映射,即从词频到邮件类别的映射)对新邮件进行分类。
Q:
机器学习与统计学或计量经济学的主要区别是什么?
A:
机器学习、统计学或计量经济学都想估计出一个从 (向量)
到 的函数映射,即 。主要区别在于,统计学与计量经济学一般更关注参数估计量 ,因为它通常可用来解释 对 的影响(比如,对于线性回归模型, 就是边际效应)。另一方面,机器学习主要关注 ,其成功标准一般用预测的准确率来衡量。比如,在使用计算机识别手写体数字时,一般只关心算法的准确率,并不在乎究竟是哪些像素导致了计算机将图像归类为“5”而不是“6”。
Q:
为什么机器学习这么“火”?
A:
由于机器学习专注于预测,故在业界有很多应用。特别是最近二、三十年来,机器学习(包括深度学习)发展很快,预测错误率不断下降(特别在图像识别,自然语言处理领域)。对于很多问题,机器学习的预测错误率可能比传统的统计或计量方法低一个数量级,比如前者的错误率为1%,而后者的错误率为10%。原因之一是,传统的统计或计量经济学十分强调模型的可解释性(interpretability),故大量使用线性模型,而现实世界一般为非线性。
Q:
既然机器学习的优势在于预测,而我作为经管或社科类的学者,只关心因果推断,有必要学机器学习吗?
A:
事实上,因果推断的本质也是预测问题。根据鲁宾的因果模型(Rubin's Causal Model),因果效应通过“潜在结果”(potential outcome)来定义,即政策实施后的“观测结果”(observed outcome)与政策如果未实施的“反事实结果”(counterfactual outcome)之差。显然,反事实结果不可观测,故只能在一定假设之下进行估计与预测。
Q:
目前机器学习在计量经济学中有哪些应用?未来的发展趋势如何?
A:
迄今为止(尤其是最近十年),机器学习已经在计量经济学中掀起了两波应用的浪潮。第一波浪潮为MIT的Chernozhukov教授等将Lasso系列的惩罚回归(penalized regression)方法引入计量经济学,提出了post double selection lasso,IV lasso,double machine learning等适用于因果推断的机器学习方法。
第二波浪潮为Stanford的Susan Athey教授等将基于决策树(tree-based)的机器学习方法引入计量经济学,提出了causal tree,causal forest,local linear forest与generalized random forest等方法(不少论文刚发表或仍为工作论文)。
在可预见的将来,机器学习方法将加速融入计量经济学,成为计量经济学的重要组成部分,尤其在非参数与半参数估计领域。这是因为,传统统计与计量的非参方法主要为基于核(kernel)的局部回归(local regression),很难推广到高维(因为存在维度灾难,curse of dimensionality),而机器学习方法(比如基于决策树的随机森林、梯度提升法等)在高维空间依然适用,而且预测准确率更高。
Q:
作为经管或社科类的学者或学生,我应该学机器学习吗?
A:
在几年前,如果你知道Lasso,说明你是先进的;但现在已经很难这么说了。再过几年,如果你还不知道Lasso,则可能说明你是落后的,因为关于Lasso的知识正在加速普及。
类似地,如果你现在就知道随机森林(random forest),说明你是先进的;……。在科研的道路上,抢占先机无疑十分重要。你的选择决定了你究竟是先知先觉,还是后知后觉……这就是不掌握机器学习的机会成本。
Q:
我是文科生,能学会机器学习吗?
A:
如果你学过统计学或计量经济学,应该很容易上手机器学习。在某种意义上,机器学习比计量经济学更简单。机器学习主要关心“算法”(algorithm),所用数学基本上就是最优化(optimization),并不使用统计学或计量经济学那些复杂的渐近理论(asymptotics)。而且有些传统的统计与计量方法,本身也是机器学习的常用方法,比如OLS、Logit、多项Logit等,这些你本来就会啊。
结语:
这是一个令人激动的时代。人工智能与机器学习正在深刻地改变着几乎每个行业与学科(包括计量经济学),而机器学习无疑正是未来世界的一块重要柱石。
陈强,《计量经济学及Stata应用》,高等教育出版社,2015年(
配套教学视频
,可在网易云课堂学习,详见https://study.163.com/course/introduction/1006076251.htm)
陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年(配套高级计量六天现场班,北京,2019年10月1-6日,详见https://bbs.pinggu.org/thread-3156565-1-1.html)
陈强,《机器学习及R应用》,高等教育出版社,2020年(即将出版)
震撼来袭 >>
机器学习及Stata、R三天现场班
上海,2019年8月17日-19日
主办:第三届Stata中国用户大会、友万科技
主讲:
陈强教授
(山东大学)
授课方式:思想原理 + 数学精髓 + Stata、R案例
陈强老师将首次推出全新的“机器学习及Stata、R应用”三天现场培训班。结合Stata与R的实操案例,深入浅出地介绍最为流行的机器学习方法,包括Lasso, KNN,判别分析、朴素贝叶斯、决策树、随机森林、提升法、支持向量机、神经网络等。
跟着陈老师,三天入门机器学习,赶上时代步伐!
更多详情,请点击页底
“阅读原文”
(c) 2019, 陈强,山东大学经济学院
www.econometrics-stata.com
转载请注明作者与出处
Our mission is to make econometrics easy, and facilitate convincing empirical works.
返回搜狐,查看更多
责任编辑:
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。