Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AlgorithmDog 作者

算法工程师眼中的AI岗位

人工智能 的飞速发展导致了某些工作岗位因自动化操作取代手动操作而减少甚至消失,技术进步带来的欢欣鼓舞填补不了部分人因失业而导致的失落。然而, 人工智能 不仅仅“消灭”工作岗位,同时也会创造另外一些工作机会。这些新的工作机会是什么?与近年来大火的 人工智能 三大主义、 机器学习 深度学习 大数据 等概念又有哪些关系?

一、 人工智能 三大主义能为我们创造什么工作?

作为近年来在无论在科技领域还是投资领域都非常火爆的概念, 人工智能 并不是什么新技术。早在计算机被发明伊始,科学家们就在考虑用计算机技术实现 人工智能 了。1946 年 2 月 14 日,世界上第一台电脑 ENIAC 在美国宾夕法尼亚大学诞生。1956 年,“ 人工智能 之父”John McCarth 在达特矛斯会议上提出将 “ 人工智能 就是要让机器的行为看起来像人所表现出的智能行为一样”。在如何实现 人工智能 这个话题领域,科学家们有着不同理念和想法。这些理念和想法后来被归结为 人工智能 三大主义。

1)符号主义

符号主义者认为 人工智能 源于数理 逻辑 , 可以通过在计算机上进行 逻辑 演绎的方式实现 人工智能 。在 1956 年首先使用 “ 人工智能 ” 这个术语的正是符号主义者。,在 20 世纪 80 年代,由符号主义发展出 专家系统 取得很大发展。人们在开发 专家系统 时发现其瓶颈,计算机没有常识储备:计算机并不知道什么是奥巴马,什么是美国,更不知道奥巴马曾经是美国总统。为了解决这个问题,人们开始构建 常识知识库 (简称常识库),常识库是一个包含了大多数人所具备的一般知识的 数据库 。后来常识库升级为 语义网 ,而 语义网 知识图谱 的前身。现在符号主义整体进入冷寂期,但 知识图谱 作为符号主义的余脉依然活跃在学术研究和工业应用中。

下图正是符号主义为我们创造的工作岗位: 知识图谱 工程师,其岗位职责是负责建立和维护 知识图谱 。由于现在的 知识图谱 是从 Wikipadia 抽取信息,需要正确处理文本,因此 知识图谱 岗位需要具备一定的 自然语言处理 能力。

2)行为主义

行为主义借鉴了心理学的行为主义,认为智能就是 “ 感知 -动作”,即 感知 外界环境并反馈正确的动作。实现 “ 感知 -动作” 模型的基础是 控制论 思想, 控制论 在 20 世纪 40~50 年代就成为时代思潮的重要部分。行为主义一直致力于智能控制和智能机器人的研究。时至今日,具有“自己行走”、“搬运东西”和其他功能的实体智能机器人依然是研究的热点。下图是由大名鼎鼎的波士顿机器人公司研发的四足行走机器人 (人称大狗)。

当前行为主义并不是 人工智能 领域的主流,但正如符号主义有一个受人关注的延续 ( 知识图谱 ),行为主义也启发了一个著名的分支—— 强化学习 。在早期的 控制论 中,人们已经开始探索类似于 强化学习 的机制。 强化学习 关注决策者与其环境交互时所面临的学习问题,有点类似于 “ 感知 -动作” 模式。不同点在于 强化学习 更强调学习,因此 强化学习 最终被归入了 机器学习 ,成为 机器学习 三大模式(有 监督学习 、无 监督学习 强化学习 )之一。

3)连接主义

连接主义认为 人工智能 应模拟大脑连接结构,从而建立了 神经网络 模型。早在计算机诞生前,心理学家 W·Mcculloch 和数理 逻辑 学家 W·Pitts就提出 神经元 的数学模型。1948 年,首台计算机设计者冯·诺依曼也研究过 神经网络 。50年代末,F·Rosenblatt 制成了一层 神经网络 模型 “ 感知 机”, 神经网络 从思想走向现实。但 1968 年一本名为《 感知 机》的著作指出,线性 感知 机功能是有限的,它甚至不能解决异或这样的基本关系。 神经网络 的研究进入了低潮。

1986 年,Rumelhart 为首的研究小组提出了 反向传播算法 ,使得能够逼近复杂函数 (当然包括异或) 的三层 神经网络 可以被训练。 神经网络 第二次兴起。1995 年,SVM 算法被提出,成为 神经网络 的强劲对手。 神经网络 进入了第二次低潮。

2006 年,Hinton (也就是 1986 年那篇 反向传播算法 论文的共同作者) 提出了用 AutoEncoder 初始化 神经网络 参数 ,再进行训练的方法,使得表达能力更强的多层 神经网络 成为可能。随后,多层 神经网络 在不同竞赛中取得了远比其他方法好的成果。 神经网络 第三次兴起。

神经网络 起起落落的这些年里,一位未来的王者开始登上历史的舞台,那就是 机器学习 。连接主义是 机器学习 中学习概念的重要思想源头, 神经网络 也是 机器学习 重要模型, 机器学习 则包含了更多的内容。现在, 机器学习 驰名当世、声名远扬,盖住了传统 人工智能 的风头,以至于很多人误以为 人工智能 就是 机器学习

人工智能 工程师做的产品大部分和 机器学习 相关。如下图中,尽管工作职位的称呼是 人工智能 算法工程师,但绝不是让你去开发 专家系统 , 而是让你做与学习相关的工作。

二、 机器学习 热潮带来的职业机会

1986 年是令人振奋的一年。在这一年, 反向传播算法 问世,标志着连接主义的载体 神经网络 第二次兴起。也是这一年,Quinlan 提出了著名的 ID3 决策树 算法,开启了学习道路的另一条分支。这条树模型的分支持续演化到了今天,依然在人类工业实践和学术研究中扮演着重要角色。后来,科学家们陆续将统计学的算法引入该领域,如回归和 聚类 ;开始为 机器学习 建立了数学基础,如 VC 维;或者提出了新的算法,如 SVM 和 RandomForest。这些新思想、新算法远远超出了连接主义 “模拟大脑连接结构” 的原定义,再称之为连接主义已经不合适了,于是人们将 神经网络 和这些新思想新算法命名为 机器学习 机器学习 依然是 “要让机器的行为看起来像人所表现出的智能行为一样”,即依然是 人工智能 的范畴。

在讲 人工智能 连接主义时,我们提到了 神经网络 第三次的兴起,源于Hinton 在 2006 年发表的一篇关于 “有效训练多层 神经网络 的方法” 的论文。由此 神经网络 极大地提升了自己的性能,尤其在图像和语音领域。多层 神经网络 结构效果太好了,以至于人们接受了 Hinton 提出的 深度学习 的称呼。 深度学习 从 2006 年第一篇论文开始,至今已占据了 机器学习 领域的主流地位,不过短短十年。 深度学习 的火爆,导致我们需要特别澄清 深度学习 机器学习 之间的关系: 人工智能 包含 机器学习 ,而 机器学习 包含 深度学习

机器学习 尤其是 深度学习 需要用大量的数据进行高效训练。这需要一个高效的 机器学习 平台。即使现在有了 TensorFlow 之类的开源 机器学习 平台,也需要工程师将其改造并部署到集群中,以让其高效工作。因此 机器学习 专门有一个 机器学习 系统方向,研究如何设计并实现高效的分布式 机器学习 平台。

在工作职位上,相关职位有: 机器学习 工程师和 机器学习 平台工程师。前者的工作职责是将 机器学习 算法应用在现有业务上,后者的工作职责则是建设并维护分布式 机器学习 平台。

还有一个相关工作职位是算法工程师。这里所指的算法不是计算机基础算法(如 动态规划 ),而是 机器学习 算法。笔者个人认为应该称为 机器学习 算法工程师更加恰当。这个职位和 机器学习 工程师类似。另外一个职位是 深度学习 工程师。由于近年来 深度学习 非常火爆,不少公司对于 深度学习 方向的人员需求迫切,于是产生了 深度学习 工程师的职位。

随着人们在 机器学习 领域取得突破, 机器学习 的思想和方法开始影响不同的领域。

1) 数据挖掘

数据挖掘 拥有很多定义, 其中一个比较有名的定义为 “一门从大量数据或者 数据库 中提取有用信息的科学”。大部分人是通过一个案例认识到 数据挖掘 :这是因为沃尔玛通过 数据分析 发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段;没想到这个举措居然使尿布和啤酒的销量都大幅增加了。虽然这个故事很可能是假的(Teradata公司一位经理编出来的“故事”目的是让 数据分析 看起来更有力更有趣), 但是确实让不少人开始接触 数据挖掘

我们似乎能感受 数据挖掘 的企图心:从数据出发,建立一个类似现在 机器学习 那样庞大的科学体系。开普勒从第谷的大量资料中发现行星运动规律的历史,“啤酒和尿布” 的故事,从数据中发现的相关关系将替代因果关系的宣言,是 数据挖掘 理论高度和实际应用的背书,是 数据挖掘 实现企图心的见证。一山哪能容二虎, 数据挖掘 机器学习 正面交锋了。它们之间有很多重合的地方,如下图所示。在重合部分的分类、 聚类 和回归上, 机器学习 有高层次的理论分析,有高效的训练方法;在非重合部分, 机器学习 有很多 数据挖掘 没有的东西,比如学习理论和 强化学习 。在 机器学习 崛起的背景下,我们很难说清楚 数据挖掘 区别于 机器学习 的独特价值是什么了。历史给 机器学习 加了冕。

在工作岗位方面,我们似乎看到很多 数据挖掘 工程师成了 机器学习 工程的别称,毕竟它们之间有太多的重合。但有一种情况例外: 如果 推荐系统 和广告系统部门招聘, 机器学习 工程师偏重于点击率预估算法的实现和改进, 数据挖掘 工程师则偏重于新特征的挖掘。

2) 推荐系统 和广告系统

推荐系统 和广告系统都是工业级的大系统,需要各个子系统相互协调配合,但都以 机器学习 建构其中一个核心子系统 —— 点击率预估 (CTR)。 推荐系统 和广告系统对现在的 人工智能 有很重要的意义。即便现阶段 人工智能 的几个创新点( 人脸识别 、对话机器人和无人驾驶等)失败, 人工智能 也不会面临“The winter is coming”的惨状,因为 推荐系统 和广告系统能直接产生收益。根据艾瑞发布的《2016Q1网络广告营收报告》,2016 年第一季度中国网络广告市场规模达543.4亿元。再加上收益不菲的 推荐系统 人工智能 社区能够全身而退,重新回到 “世界上最聪明的一群人,每天研究的是如何让人更多地点广告”时代 。

推荐系统 和广告系统作为能直接带来效益的部门,自然需要招聘专门的推荐算法工程师和广告算法工程师。推荐算法工程师和广告算法工程师的主要职责分别是建立推荐和广告的点击率预估。

3)搜索引擎

搜索引擎更是一个工业级的大系统。不把搜索引擎、 推荐系统 和广告系统并列在一起,是因为 机器学习 并不是搜索引擎的核心部件。基于可解释和可控制的因素,搜索引擎的网页排序大量基于规则,而不是 机器学习 模型。同时信息采集 (爬虫子系统) 和信息组织 ( 信息检索 子系统)等非 机器学习 部件都在搜索引擎中扮演着非常重要的角色。但 机器学习 在搜索引擎中也起了一定作用, 比如需要 查询 词的意图。因此,搜索工程师指的是负责搜索引擎的各个模块的工程师。

4) 自然语言处理 计算机视觉 语音识别

自然语言处理 要让计算机理解和生成人类语言,是 机器学习 和语言学融合的产物。 自然语言处理 的经典任务包括分词、 词性标注 、语法树解析、 机器翻译 和人机对话等等。5 年前,除了 百度 百度 很早就成立了单独的 自然语言处理 部门),大部分公司都不单独招聘自然语言工程师,而是将 自然语言处理 作为 推荐系统 、广告系统和搜索引擎的子模块。比如搜索引擎中的 query 分词就是一个典型的分词任务。近几年,由于大量的人机对话项目和少部分 机器翻译 项目的需求,导致很多公司开始单独招聘自然语言工程师。下图就是来自 腾讯 自然语言处理 的招聘职位,可以看出这个职位的要求就是做对话机器人。

计算机视觉 要让计算机理解和生成图像,是 机器学习 图像处理 融合的产物。 计算机视觉 深度学习 大发展的今天,取得了巨大的突破。虽然 计算机视觉 的商业应用场景还在探索中,一些大公司和创业公司已经开始招聘 计算机视觉 工程师。由于最近几年 计算机视觉 的突破几乎都是由 深度学习 进步带来的,因此 计算机视觉 工程师需要有 深度学习 的知识和背景。

同样得益于 深度学习 的进步, 语音识别 也取得了突破。 语音识别 指的是将说话的音频转成文字的过程。随着 语音识别 的进步,一些大公司和创业公司开始招聘专门的 语音识别 工程师, 语音识别 工程师的主要职责是负责建立和维护 语音识别 系统。市场上 语音识别 的训练数据非常少,收集和整理数据也是职责之一。

三、人人都在谈的 大数据 ,为我们创造了哪些工作岗位?

人工智能 密切联系的领域是 大数据 。目前 大数据 在业界的概念比较宽泛,如 4v 、 5v 等 ( IBM 咨询提出, 大数据 有4V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)),以至于 “人人都在谈 大数据 ,但没人知道 大数据 究竟是什么”。 但在技术上, 大数据 技术的定义是非常明确的,指的是一系列处理和存储海量数据的技术。 大数据 技术的起点应该是人称 Google 三驾马车的三篇论文: Google FS、 MapReduce 和 Bigtable。受到这三篇论文影响, Doug Cutting 等人陆续改进其负责的 Apache Nutch 项目,于 2006 年完成了一套独立而完整的软件, 并将其命名为 Hadoop。其后 大数据 技术的发展如下图所示 (该图最早来源于微博)。目前最主流的 大数据 处理平台是 Spark。

大数据 领域妖孽多, 业内人有一句戏谑:“凡是提 4v 的 大数据 都是骗子”。虽然这句话可能会得罪不少人,但鉴于不少人把 excel 级别的数据处理也称为 大数据 ,我们还能说什么呢?

市场上对 大数据 工程师的需求非常迫切,其主要职责是使用开源 大数据 平台,建立和维护 大数据 集群。在某些公司, 大数据 工程师还负责公司内产生数据的收集、整理和入库。

四、人的 数据分析 ,产生了哪些职位?

数据分析 指的是是用适当的统计方法对数据进行分析,发现数据中规律,从而帮助业务发展。这个工作和数据很近,要求从业人员对数据敏感,和 人工智能 比较远。主要发挥人的主观能动性,而不是使用算法效能。 数据分析 的对象是人,而不是机器。

举个例子,漏斗模型是经典的消费者模型(如上图),如果网站改版之后, 数据分析 发现转化率变低,这就需要分析原因了,如是不是点击按钮不够明显。根据这些分析结果,能够持续优化网站。 数据分析 有自己的故事,“ 商业智能 ”、“数据驱动” 和 “增长黑客” 都是 数据分析 饱含理想和格调的称呼。下面是一个典型的 数据分析 职位的例子。

五、结论

人工智能 机器学习 深度学习 大数据 等概念关系密切,相互之间有很深的渊源,导致相应工作职位内涵重叠。例如 深度学习 工程师很大概率从事 计算机视觉 相关的工作,而 计算机视觉 工程师必须有 深度学习 背景和知识。

回到文章开头的问题,虽然 人工智能 的出现导致了某些工作岗位的消亡,但 人工智能 三大主义、 机器学习 深度学习 大数据 等新兴领域也创造了大量的新型的工作职位。这是 人工智能 深刻影响经济活动和社会生活的缩影,是这个时代的注脚。

腾讯技术工程
腾讯技术工程

腾讯技术工程事业群在机器之心的内容专栏

产业 算法工程师 符号主义 行为主义 连接主义 机器学习 数据挖掘 推荐系统 搜索引擎 自然语言处理 计算机视觉 语音识别 大数据
5
相关数据
IBM 机构
相关技术
冯·诺依曼 人物

约翰·冯·诺伊曼(德语:John von Neumann,1903年12月28日-1957年2月8日),原名诺依曼·亚诺什·拉约什(匈牙利语:Neumann János Lajos),出生于匈牙利的美国籍犹太人数学家,现代电子计算机与博弈论的重要创始人,在泛函分析、遍历理论、几何学、拓扑学和数值分析等众多数学领域及计算机学、量子力学和经济学中都有重大贡献。

深度学习 技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。