matpool 行业动态 | 图解 72 个机器学习基础知识点

相关文章推荐

体贴的小马驹 · 王毅在“全球发展倡议之友小组”部长级会议上的 ...· 2 年前 ·

直爽的八宝粥 · 【东风俊风E11K】东风俊风E11K口碑_东 ...· 2 年前 ·

含蓄的斑马 · 红楼梦陈晓旭有设有孩子_头条· 2 年前 ·

豪情万千的眼镜 · 36岁白百何少女感太好了，晒5套冬季造型，看 ...· 2 年前 ·

直爽的马克杯 · 苹果手机如何购买爱奇艺会员？ - 知乎· 2 年前 ·

来源 | 尤而小屋

本文仅作学术分享，如有侵权请联系删文

图解机器学习算法系列以图解的生动方式，阐述机器学习核心知识 & 重要模型，并通过代码讲通应用细节。本文为系列第1篇，梳理机器学习最常见的知识要点。

1. 机器学习概述

1）什么是机器学习

人工智能

大概在上世纪50年代，人工智能开始兴起，但是受限于数据和硬件设备等限制，当时发展缓慢。

机器学习

深度学习

让我们看看国外知名学者对机器学习的定义：

机器学习研究的是计算机怎样模拟人类的学习行为，以获取新的知识或技能，并重新组织已有的知识结构，使之不断改善自身

从实践的意义上来说，机器学习是在大数据的支撑下，通过各种算法让机器对数据进行深层次的统计分析以进行「自学」，使得人工智能系统获得了归纳推理和决策能力。

垃圾邮件过滤

2）机器学习三要素

数据、模型、算法

（1）数据

数据驱动

（2）模型&算法

模型

算法

3）机器学习发展历程

人工智能一词最早出现于1956年，用于探索一些问题的有效解决方案。1960年，美国国防部借助「神经网络」这一概念，训练计算机模仿人类的推理过程。

2010年之前，谷歌、微软等科技巨头改进了机器学习算法，将查询的准确度提升到了新的高度。而后，随着数据量的增加、先进的算法、计算和存储容量的提高，机器学习得到了更进一步的发展。

4）机器学习核心技术

分类

聚类

异常检测

回归

5）机器学习基本流程

机器学习工作流（WorkFlow）包含数据预处理（Processing）、模型学习（Learning）、模型评估（Evaluation）、新样本预测（Prediction）几个步骤。

数据预处理

模型学习

模型评估

新样本预测

6）机器学习应用场景

作为一套数据驱动的方法，机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别和机器人等领域。

智能医疗

人脸识别

机器人的控制领域

2.机器学习基本名词

监督学习

无监督学习

强化学习

示例/样本

属性/特征

属性空间/样本空间/输入空间X

特征向量

标记

分类

假设

真相

学习过程

泛化能力

3.机器学习算法分类

1）机器学习算法依托的问题场景

机器学习在近30多年已发展为一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动「学习」的算法。

机器学习算法从数据中自动分析获得规律，并利用规律对未知数据进行预测。

机器学习理论关注可以实现的、行之有效的学习算法。很多推论问题属于无程序可循难度，所以部分的机器学习研究是开发容易处理的近似算法。

机器学习最主要的类别有：监督学习、无监督学习和强化学习。

监督学习

更多监督学习的算法模型总结，可以查看ShowMeAI的文章 AI知识技能速查 | 机器学习-监督学习（公众号不能跳转，本文链接见文末）。

无监督学习

更多无监督学习的算法模型总结可以查看ShowMeAI的文章 AI知识技能速查 | 机器学习-无监督学习。

强化学习

2）分类问题

分类问题是机器学习非常重要的一个组成部分。它的目标是根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类。分类问题可以细分如下：

二分类问题

多类分类

多标签分类

了解更多机器学习分类算法：KNN算法、逻辑回归算法、朴素贝叶斯算法、决策树模型、随机森林分类模型、GBDT模型、XGBoost模型、支持向量机模型等。（公众号不能跳转，本文链接见文末）

3）回归问题

了解更多机器学习回归算法：决策树模型、随机森林分类模型、GBDT模型、回归树模型、支持向量机模型等。

4）聚类问题

了解更多机器学习聚类算法：聚类算法。

5）降维问题

了解更多机器学习降维算法：PCA降维算法。

4.机器学习模型评估与选择

1）机器学习与数据拟合

机器学习最典型的监督学习为分类与回归问题。分类问题中，我们学习出来一条「决策边界」完成数据区分；在回归问题中，我们学习出拟合样本分布的曲线。

2）训练集与数据集

我们以房价预估为例，讲述一下涉及的概念。

训练集

测试集

当然，test set这并不能保证模型的正确性，只是说相似的数据用此模型会得出相似的结果。因为在训练模型的时候，参数全是根据现有训练集里的数据进行修正、拟合，有可能会出现过拟合的情况，即这个参数仅对训练集里的数据拟合比较准确，这个时候再有一个数据需要利用模型预测结果，准确率可能就会很差。

3）经验误差

在训练集的数据上进行学习。模型在训练集上的误差称为「经验误差」（Empirical Error）。但是经验误差并不是越小越好，因为我们希望在新的没有见过的数据上，也能有好的预估结果。

4）过拟合

过拟合，指的是模型在训练集上表现的很好，但是在交叉验证集合测试集上表现一般，也就是说模型对未知样本的预测表现一般，泛化（Generalization）能力较差。

如何防止过拟合呢

正则化

数据集扩增

DropOut

5）偏差

偏差

简单模型是一组直线，平均之后得到的平均模型是一条直的虚线，与真实模型曲线的差别较大（灰色阴影部分较大）。因此，简单模型通常高偏差。

复杂模型是一组起伏很大波浪线，平均之后最大值和最小组都会相互抵消，和真实模型的曲线差别较小，因此复杂模型通常低偏差（见黄色曲线和绿色虚线几乎重合）。

6）方差

方差

复杂模型的对应的函数千奇百怪，毫无任何规则，但平均模型的函数也是一条平滑的曲线，因此复杂模型的方差很大，并且对数据的变动很敏感。

7）偏差与方差的平衡

8）性能度量指标

性能度量

（1）回归问题

关于模型「好坏」的判断，不仅取决于算法和数据，还取决于当前任务需求。回归问题常用的性能度量指标有：平均绝对误差、均方误差、均方根误差、R平方等。

平均绝对误差

平均绝对百分误差

均方误差

均方根误差

R平方，决定系数

（2）分类问题

分类问题常用的性能度量指标包括错误率（Error Rate）、精确率（Accuracy）、查准率（Precision）、查全率（Recall）、F1、ROC曲线、AUC曲线和R平方等。更详细的内容可见模型评估方法与准则（链接见文末）。

错误率

精确率

查准率

查全率

ROC曲线

AUC

从一个比较高的角度来认识AUC：仍然以异常用户的识别为例，高的AUC值意味着，模型在能够尽可能多地识别异常用户的情况下，仍然对正常用户有着一个较低的误判率（不会因为为了识别异常用户，而将大量的正常用户给误判为异常。

9）评估方法

我们手上没有未知的样本，如何可靠地评估？关键是要获得可靠的「测试集数据」（Test Set），即测试集（用于评估）应该与训练集（用于模型学习）「互斥」。

常见的评估方法有：留出法（Hold-out）、交叉验证法（ Cross Validation）、自助法（Bootstrap）。更详细的内容可见模型评估方法与准则（链接见文末）。

留出法

交叉验证法

自助法（Bootstrap）是一种用小样本估计总体值的一种非参数方法，在进化和生态学研究中应用十分广泛。

Bootstrap通过有放回抽样生成大量的伪样本，通过对伪样本进行计算，获得统计量的分布，从而估计数据的整体分布。

10）模型调优与选择准则

我们希望找到对当前问题表达能力好，且模型复杂度较低的模型：

表达力好的模型，可以较好地对训练数据中的规律和模式进行学习；

复杂度低的模型，方差较小，不容易过拟合，有较好的泛化表达。

11）如何选择最优的模型

（1）验证集评估选择

切分数据为训练集和验证集。

对于准备好的候选超参数，在训练集上进行模型，在验证集上评估。

（2）网格搜索/随机搜索交叉验证

通过网格搜索/随机搜索产出候选的超参数组。

对参数组的每一组超参数，使用交叉验证评估效果。

选出效果最好的超参数。

（3）贝叶斯优化

基于贝叶斯优化的超参数调优。

机器学习100天计划！

视频讲解 + 实战代码 + 社群交流 + 直播答疑

教学视频、实战代码

扫描下方二维码，加入学习！

点击

「

阅读原文

」

即刻报名

，值了。

原文链接

作者：易贝贝 https://www.zhihu.com/question/64371326/answer/2251105460 北航博士，2019 年 7 月毕业，入职西安某所。先发个收入截图吧。首先声明我这个收入是要低于跟我同年上大学，2014年硕士入所的同学的，我比较熟的技术部门的同学收入加公积金在30左右了，不是很多人想的博士才这么点硕士更少了。我要达到这个数字估计还得两年左右。有人说说博士才这点钱，对于不了解行情的，我只能回答：能赚很多钱是世人对博士最大的误解；对于秀优越的，你先看看自己是不是下面两种情况里的反面典型。对于我来说，可能因为是穷苦人家的孩子，从小没见过啥钱，所以觉得这个收入还可以。还有一些学弟也是博士纠结待遇问题，问我收入问什么这么少，我这里有点心得跟你们分享下，不一定全对。首先我司名声在外，确实不愁招不到人，所以没有安家费，博士也没有什么特殊的照顾，就按正常的工资体系发钱。有些单位会给博士安家费，为什么给安家费你可以琢磨一下，据我所知北京的几个大总体基本都没有安家费，

毫不夸张的说，没有无监督学习就没有 ChatGPT 。需要用海量的互联网文本进行训练，因此无监督学习也就成为必然选择。我们可以把机器学习理解成“通过训练数据和算法模型让机器具有人工智能的方法。” 而“训练数据 ” 的方式一定程度上决定了机器学习的学习方式。通常分为有监督学习、半监督学习和无监督学习。监督学习是通过人工标注数据对模型进行训练的机器学习方式。例如给计算机猫和狗的图片，然后告诉计算机哪个是猫，哪个是狗。计算机根据给出的“图片和答案的特征”去学习。而无监督学习则是，给出猫和狗的图片，但并不告诉计算机哪个是猫哪个是狗，需要计算机自己去判断总结，以此来完成猫和狗的分类。无监督学习可以直接学习数据中的规律，因此无监督学习也称为知识发现。近年来无监督学习的相关研究取得了很大的突破，包括因此，向大家推荐 3 月 2 日关于机器学习、无监督学习算法的公开课。讲师为新加坡名校博士 Bobby 老师，目前已发表十余篇顶会和高区论文，