三大技术基础推动人工智能走向实用
人工智能从幕后走向实用离不开人工智能技术取得的突破和发展。在互联网时代背景下,大数据、新型高性能计算架构以及深度学习帮助人工智能技术实现了从量变到质变的转变。其中,计算机视觉、 语音识别 技术均已能够规模化商用,自然语言处理技术仍处于攻关阶段,机器人技术则正在逐渐提升社会生产效率。除了三大技术基础外,开源也成为人工智能技术普及的催化剂,有效降低了人工智能的技术门槛。
海量数据为人工智能技术发展奠定技术
大数据的爆发为基于深度学习的人工智能发展奠定基础。21世纪初,谷歌、亚马逊、Facebook、雅虎、推特等大型网站积累了大量用户的商品交易、搜索、社交、个人情感等数据。根据TalkingData数据统计,2016年智能手机含平板电脑在中国拥有将近13.05亿用户,而平均每部智能手机携带多达16种传感器,每天产生1G数据。这不仅增强了人类感知以及数字化世界的能力,也让数据以前所未有的速度产生和发展。
2014-2020年全球互联网用户数量和渗透率
请点击此处输入图片描述
以人为中心的世界正在全面加速数字化进程
新型高性能计算架构成为人工智能技术演进的催化剂
自第一台电子计算机ENIAC问世以来,以电子器件、系统结构和计算模式的重大变革为标志,高性能计算芯片按照摩尔定律快速发展。
近年来,随着人工智能领域中深度学习热潮的涌现,计算芯片的架构逐渐向深度学习应用优化的趋势发展,从传统的CPU为主 GPU 为辅的英特尔处理器转变为GPU为主CPU为辅的结构。NVIDIA推出的TeslaP100图形处理芯片主要用于研发基于深度学习的人工智能。来源于谷歌开源深度学习框架TensorFlow,谷歌推出一款为机器学习定制的芯片TPU。在AlphaGo战胜柯洁的系列赛中,TPU能让AlphaGo更快地“思考”,产生更多棋招,更好的预判局势。Intel、AMD也纷纷面向人工智能进行产品研发设计,新型高性能计算架构的不断更新迭代有力地加快了人工智能前进的步伐。
圣地亚哥超级计算中心的Scott Le GrandRoss Walker、亚马逊网络服务的Scott Le Grand联合编写了一个通用计算测试工具AMBER,可模拟生物分子周围的力场,并与NVIDIA合作对Tesla P100进行了一番测试,包括单路、双路、四路。在凝血第九因子合成测试(右图所示)等十余项测试中,首次采用Pascal架构的Tesla P100性能较Tesla M40提升了50%以上。
Tesla P100与其他芯片在凝血第九因子合成测试的对比结果
深度学习全面推动人工智能技术落地
深度学习作为机器学习的一个子领域,解决了传统机器学习的许多问题,拓展了人工智能的适用领域范围。如图可以直观地看到人工智能、机器学习、深度学习三者之间紧密联系。深度学习作为核心引擎,推动了21世纪人工智能的大爆发。
人工智能、机器学习、深度学习之间的关系
深度学习(DeepLearning)的实质是通过多隐层的神经网络模型的构建和海量数据集的训练,从而对更具表示性的特征进行学习,进一步提升任务的准确性。随着神经网络模型层数越来越深,Top-5的错误率也越来越低。2015年12月10日,微软亚洲研究院视觉计算组在ILSVRC2015中凭借深度残差网络(ResidualNetworks)以绝对优势获得图像分类、图像定位以及图像检测全部三个主要项目的冠军。同一时刻,他们在另一项图像识别挑战赛MSCOCO中同样成功登顶。微软亚洲研究院的研究团队使用了一种前所未有的深度高达百层的神经网络,Top-5的错误率降到了3.57%,人眼辨识的错误率大概为5.1%,实现了计算机视觉领域的重大突破。
ILSVRC历年的Top-5错误率
AlexNet、VGG、GoogleNet、ResNet模型特征
深度学习擅长识别非结构化数据中的模式,而大多数人熟知的图像、声音、视频、文本等媒体均属于此类数据。下表列出了我们已知的应用类型及与之相关的行业。
深度学习在机器翻译中的应用效果也非常可观,2016年9月28日谷歌发布谷歌神经机器翻译系统(GNMT:GoogleNeuralMachineTranslation)。十年前,GoogleTranslate(谷歌翻译)面世,这项服务背后的核心算法是基于短语的机器翻译,而GNMT则将整个输入句子视作翻译的基本单元。
GNMT网络结构
计算机视觉技术进入规模化商用初期
计算机视觉技术在高性能计算芯片、深度摄像头和深度学习算法推动下获得了快速发展,市场空间巨大,应用产品层出不穷,成为了人工智能应用的急先锋、指纹识别、刷脸支付、机场自助通关、增强现实、无人驾驶等都是图像识别技术快速普及的一个缩影。
人脸识别 技术
众多科技巨头相继在图像识别和人工智能领域进行布局。苹果于2016年底提出用一种模拟+无监督学习的方法——生成式对抗网络(GANs)来提高合成图像的质量,生成式对抗网络很大程度上通过利用竞争性神经网络之间的对抗关系来工作,其任务是使用无标签的真实数据来提升模拟器输出的真实性。
模拟+无监督学习
语音识别技术成为最早落地的人工智能技术
在人工智能快速发展的今天,得益于深度学习与人工神经网络的发展,语音识别取得了一系列突破性的进展,在产品应用上也越来越成熟。2016年2月,百度将DeepCNN应用于语音识别研究,使用了VGGNet,以及包含Residual连接的深层CNN等结构,并将LSTM和CTC的端对端语音识别技术相结合,使得识别错误率相对下降了10%(原错误率的90%)以上,百度深度语音识别系统DeepSpeech2入选MIT2016十大突破技术。
百度语音识别技术每年迭代算法模型
深度全序列卷积神经网络结构图
2016年科大讯飞也推出了全新的深度全序列卷积神经网络(Deep Fully Convolutional Neural Network,DFCNN)语音识别框架,使用大量的卷积层直接对整句语音信号进行建模,更好的表达了语音的长时相关性。据介绍,该框架的表现比学术界和工业界最好的双向RNN语音识别系统识别率提升了15%以上。
自然语言处理技术取得突破仍需时日
2016年是自然语言处理技术(NaturallLanguageProcessing,简称NLP)进一步发展的一年。自然语言处理的主流技术已经逐渐由统计机器学习为主转向以深度学习为主的模型算法中去。谷歌于2016年9月底发布的神经机器翻译系统能够实现到迄今为止机器翻译质量最大的提升,使之达到了与人工翻译不相上下的准确度。自然语言处理技术主要是让机器理解人类的语言的一门领域。在自然语言处理技术中,大量使用了编译原理相关的技术,例如词法分析,语法分析等等,除此之外,在理解这个层面,则使用了语义理解,机器学习等技术。
Google神经网络机器翻译系统将一个中文句子翻译成英文句子的过程
自然语言处理公开数据集对比
机器人技术突破大幅提高社会生产效率
机器人技术是21世纪人工智能领域最具变革性的技术之一。2017年2月,波士顿动力(Boston Dynamics)推出一款全新机器人——Handle,这也是Boston Dynamics首次尝试轮式机器人。Handle机器人能够载重、下蹲和跨越障碍物,比上一款Atlas机器人更为先进。Handle机器人采用轮腿混合系统,腿部关节只有3个,设计、加工和装配难度都有所下降,并且轮式云动的控制难度远小于足式不行;Atlas机器人腿是3维,Handle机器人腿是2维平面的,算法难度降低;少了三个关节,驱动和加工成本降低是个两全齐美的解决方案。
波士顿动力公司2017年推出的Handle轮腿混合机器人
开源极大地推动了人工智能技术普及
开源深度学习平台是近几年推动人工智能技术发展的重要动力。从2015年1月Facebook开源了自身的一个关注深度学习的开源软件项目Torch后,各大人工智能领域的IT巨头谷歌、Facebook、IBM、微软、百度、腾讯等争相开源。经过几年发展,其中一些开源平台已经有相当大的用户群,在业内已经取得较大影响。
热门深度学习平台的比较
对于深度学习研究者而言,大量的开源项目避免了很多重造轮子的工作,降低了算法实现的门槛。下表盘点了在Github获得Stars数目最多的深度学习项目,排在前十的基本都是基于TensorFlow、caffe、Theano、Trch、CNTK等深度学习平台实现,TensorFlow遥遥领先于其它项目。
Github上Stars得分数最高的深度学习开源项目
开放平台成为科技巨头展示人工智能技术的重要渠道
科技巨头企业通过提供云服务,进一步简化用户接入和获取人工智能服务的成本,同时为企业自身提供了大量实用数据。所谓开放平台,就是用户可以通过API接口、URL等方式连入并调用企业提供的人工智能引擎,这些用户通常不具备独立研究开发人工智能引擎的能力。这方面,国外企业引领创新,谷歌、微软、IBM等科技巨头已经开放了包括语音处理、视频处理、文本分析、情感分析、语言理解、机器学习等人工智能领域的不同应用接口。国内百度、阿里、腾讯等互联网巨头也积极跟进,基于语音识别、语音合成、图像识别、机器翻译等传统人工智能技术提供一些具有特色的应用服务,为国内众多中小企业和开发者服务。
- 海量数据为人工智能技术发展奠定技术
- 新型高性能计算架构成为人工智能技术演进的催化剂
- 深度学习全面推动人工智能技术落地
- 计算机视觉技术进入规模化商用初期