机器学习用python还是R,哪个更好?
我们从不同维度分析一下两者的优势和劣势。
生态系统和库的支持
Python在机器学习领域拥有广泛而丰富的生态系统,其中最著名的机器学习库包括Scikit-learn、TensorFlow、PyTorch和Keras等。这些库提供了丰富的工具和算法,可以适应各种任务,从简单的分类和回归到复杂的深度学习模型。而R也有一些机器学习库,如caret和mlr,但相对Python来说生态系统较小。
社区支持
Python的机器学习社区庞大活跃,你可以很容易地找到解决问题的答案、教程和资源。R的社区也是活跃的,但规模不如Python。Python在全球范围内的使用更广泛~
学习曲线和易用性
Python被认为比R更易学和易用,因为其语法更接近自然语言,适合初学者。R的语法在数据分析方面可能更具表达力,但可能需要更多时间来熟悉。
数据处理和清洗
Python的Pandas库在数据处理和清洗方面表现出色,可以进行灵活而高效的数据操作。这在机器学习前的数据准备阶段非常重要。
当然,R在统计分析方面更为突出,可视化领域R的ggplot2也很优秀。
结论
对于机器学习Python和R都有各自的优势,因为它们都有大量的库。如果你能很好的掌握两种语言是最好的。比如用Python作前期阶段的数据处理工作,之后用R进行分析处理。
入门机器学习和深度强化学习,优先推荐两本书。
《统计学习方法》(Statistical Learning Methods) by 李航
这本书是机器学习领域的经典教材,对于入门学习机器学习基本算法和理论非常有帮助。它涵盖了监督学习、、无监督学习、半监督学习等内容,深入浅出地介绍了各种机器学习算法的原理和应用。这本书适合初学者,尤其是对统计学习方法感兴趣的学生。
《深度强化学习》(Deep Reinforcement Learning) by Richard Sutton and Andrew Barto
这是一本关于深度强化学习的经典教材,由深度强化学习领域的两位权威人物撰写。该书全面介绍了强化学习的基本概念和算法,并详细解释了深度强化学习的原理和方法。它适合已经有一定机器学习和编程基础的学生,想深入学习深度强化学习的原理和应用。
今天和我一起了解下机器学习工作流程&算法分类。
课程在前:
学习目标
- 了解机器学习的定义
- 知道机器学习的工作流程
- 掌握获取到的数据集的特性
- 了解机器学习常用算法的分类
一、什么是机器学习
机器学习是从 数据 中 自动分析获得模型 ,并利用 模型 对未知数据进行预测。
二、 机器学习工作流程
2.1 获取到的数据集介绍
数据简介
在数据集中一般:
- 一行数据我们称为一个 样本
- 一列数据我们成为一个 特征
- 有些数据有 目标值(标签值) ,有些数据没有目标值(如上表中,电影类型就是这个数据集的目标值)
-
数据类型构成:
- 数据类型一:特征值+目标值(目标值是连续的和离散的)
- 数据类型二:只有特征值,没有目标值
-
数据分割:
- 机器学习一般的数据集会划分为两个部分:
- 训练数据:用于训练, 构建模型
- 测试数据:在模型检验时使用,用于 评估模型是否有效
- 划分比例:
- 训练集:70% 80% 75%
- 测试集:30% 20% 25%
2.2 数据基本处理
即对数据进行缺失值、去除异常值等处理
2.3 特征工程
2.3.1什么是特征工程
特征工程是使用 专业背景知识和技巧处理数据 , 使得特征能在机器学习算法上发挥更好的作用的过程 。
- 意义:会直接影响机器学习的效果
2.3.2 为什么需要特征工程(Feature Engineering)
机器学习领域的大神Andrew Ng( 吴恩达 )老师说“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”
注:业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
2.3.3 特征工程包含内容
- 特征提取
- 特征预处理
- 特征降维
2.3.4 各概念具体解释
-
特征提取
- 将任意数据(如文本或图像)转换为可用于机器学习的数字特征
- 特征预处理
- 通过 一些转换函数 将特征数据 转换成更加适合算法模型 的特征数据过程
- 特征降维
- 指在某些限定条件下, 降低随机变量(特征)个数 ,得到 一组“不相关”主变量 的过程
2.4 机器学习
选择合适的算法对模型进行训练 (具体内容见1.5)
2.5 模型评估
对训练好的模型进行评估 (具体内容见1.6)
拓展阅读:
三、小结
- 机器学习定义【掌握】
- 机器学习是从 数据 中 自动分析获得模型 ,并利用 模型 对未知数据进行预测
- 机器学习工作流程总结【掌握】
- 1.获取数据
- 2.数据基本处理
- 3.特征工程
- 4.机器学习(模型训练)
- 5.模型评估
- 结果达到要求,上线服务
- 没有达到要求,重新上面步骤
- 获取到的数据集介绍【掌握】
- 数据集中一行数据一般称为一个样本,一列数据一般称为一个特征。
- 数据集的构成:
- 由特征值+目标值(部分数据集没有)构成
- 为了模型的训练和测试,把数据集分为:
- 训练数据(70%-80%)和测试数据(20%-30%)
- 特征工程包含内容【了解】
- 特征提取
- 特征预处理
- 特征降维
根据 数据集组成不同 ,可以把机器学习算法分为:
- 监督学习
- 无监督学习
- 半监督学习
- 强化学习
四、监督学习
-
定义:
- 输入数据是由输入特征值和目标值所组成。
- 函数的输出可以是一个连续的值(称为回归),
- 或是输出是有限个离散值(称作分类)。
4.1 回归问题
例如:预测房价,根据样本集拟合出一条
连续曲线
。
4.2 分类问题
例如:根据肿瘤特征判断良性还是恶性,得到的是结果是“良性”或者“恶性”,是离散的。
五、无监督学习
- 定义:
- 输入数据是由输入特征值组成,没有目标值
- 输入数据没有被标记,也没有确定的结果。样本数据类别未知;
- 需要根据样本间的相似性对样本集进行类别划分。
举例:
-
有监督,无监督算法对比:
六、半监督学习
- 定义:
- 训练集同时包含有标记样本数据和未标记样本数据。
举例:
-
监督学习训练方式:
- 半监督学习训练方式
七、强化学习
- 定义:
- 实质是make decisions 问题,即自动进行决策,并且可以做连续决策。
举例:
小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。
小孩就是
agent
,他试图通过采取
行动
(即行走)来操纵
环境
(行走的表面),并且从
一个状态转变到另一个状态
(即他走的每一步),当他完成任务的子任务(即走了几步)时,孩子得到
奖励
(给巧克力吃),并且当他不能走路时,就不会给巧克力。
主要包含五个元素:agent, action, reward, environment, observation;
强化学习的目标就是
获得最多的累计奖励
。
监督学习和强化学习的对比
| 监督学习 | 强化学习 | |
|---|---|---|
| 反馈映射 | 输出的是之间的关系,可以告诉算法什么样的输入对应着什么样的输出。 | 输出的是给机器的反馈 reward function,即用来判断这个行为是好是坏。 |
| 反馈时间 | 做了比较坏的选择会立刻反馈给算法。 | 结果反馈有延时,有时候可能需要走了很多步以后才知道以前的某一步的选择是好还是坏。 |
| 输入特征 | 输入是独立同分布的。 | 面对的输入总是在变化,每当算法做出一个行为,它影响下一次决策的输入。 |
拓展概念:什么是
独立同分布
:
独立同分布概念
拓展阅读:Alphago进化史 漫画告诉你Zero为什么这么牛:
http://
sports.sina.com.cn/ches
s/weiqi/2017-10-21/doc-ifymyyxw4023875.shtml
八、总结
| In | Out | 目的 | 案例 | |
|---|---|---|---|---|
| 监督学习(supervised learning) | 有标签 | 有反馈 | 预测结果 | 猫狗分类 房价预测 |
| 无监督学习(unsupervised learning) | 无标签 | 无反馈 | 发现潜在结构 | “物以类聚,人以群分” |
| 半监督学习(Semi-Supervised Learning) | 部分有标签,部分无标签 | 有反馈 | 降低数据标记的难度 | |
| 强化学习(reinforcement learning) | 决策流程及激励系统 | 一系列行动 | 长期利益最大化 | 学下棋 |