转载自:机器之心 | 编辑:杜伟、陈萍
特斯拉 AI 总监 Andrej Karpathy 连发多条推文表示,AI 不同领域(视觉、语音、自然语言等)正在打通,融合速度令人惊叹。
今日,特斯拉 AI 总监、Autopilot Vision 团队领导人 Andrej Karpathy 在推特上发文,对 AI 领域正在进行中的融合(consolidation)表示惊叹。
他表示,「10 年前,视觉、语音、自然语言、强化学习等都是完全分离的,甚至没有跨领域的论文。方法也完全不同,通常不是基于机器学习。」
从 2010 年开始,视觉、语言、自然语言、强化学习等领域的壁垒逐渐打破,它们开始转向同一个技术方向,即
机器学习,特别是神经网络。
它们使用的网络架构具有多样性,但至少论文开始读起来更加相似,基本上都用到了大型数据集和网络优化。
随着 AI 技术的发展,近两年,不同领域模型架构似乎也变得相同起来。很多研究者开始专注于 Transformer 架构,在此基础上做较小的改动以进行研究。
例如 2018 诞生的 GPT,1.17 亿参数;2019 年 GPT-2,15 亿参数;2020 年更是将其扩展到 1750 亿参数 GPT-3。Karpathy 基于 PyTorch,仅用 300 行左右的代码就写出了一个小型 GPT 训练库,并将其命名为 minGPT,这个 minGPT 能够进行加法运算和字符级的语言建模,而且准确率还不错。核心的 minGPT 库包含两个文档:mingpt/model.py 和 mingpt/trainer.py。
前者包含实际的 Transformer 模型定义,大约 200 行代码
,后者是一个与 GPT 无关的 PyTorch 样板文件,可用于训练该模型。
部分代码截图。
197 行完整代码:https://github.com/karpathy/minGPT/blob/master/mingpt/model.py
随着模型架构的融合,现在,我们可以向模型输入词序列、图像 patch 序列、语音序列、强化学习序列(状态、行为、奖励)。我们可以在条件设置中添加任意 token,这种模式是极其简单、灵活的建模框架。
即使是在某个领域(如视觉)内部,过去在分类、分割、检测和生成任务上存在一些差异。但是,所有这些也正在转换为相同的框架,例如 patch 的检测 take 序列和边界框的输出序列。
现在,区别性特征主要包括以下几个方面:
2)将自身问题映射到向量序列以及从向量序列映射出自身问题的输入 / 输出规范
3)位置编码器的类型以及注意力 mask 中针对特定问题的结构化稀疏模式
所以,从技术上来说,AI 领域的方方面面,包括前景、论文、人才和想法突然之间变得极其相关。每个人基本上都在使用相同的模型,大多数改进和想法可以快速地在所有 AI 领域「复制粘贴」(copy paste)。
正如其他很多人注意到并指出的那样,新大脑皮质(neocortex)在其所有的输入模态中也有一个高度统一的架构。也许自然界偶然发现了一个非常相似的强大架构,并以类似的方式复制了它,并只在一些细节上做了改变。
这种架构上的融合将使我们专注于软硬件和基础设施建设,进一步加速 AI 领域的进展。「无论如何,这是激动人心的时刻。」
对于 Andrej Karpathy 描述的 AI 融合趋势,网友也纷纷发表意见。
推特网友 @Neural Net Nail 表示,「这是一个有价值的见解。融合将加速 AI 领域的创新步伐,在边缘端使用 AI 的尖端产品变得更加可行。我想,变化(variation)才是质量的最大敌人。」
网友 @sisil mehta 也认为,「ML 基础设施迎来了激动人心的时刻。随着模型架构的融合,建模框架和基础设施也将融合。我当然希望 PyTorch Lightning 也会这样。」
网友 @Marcos Pereira 表示,「一方面,处处都在用 transformers,我们已经遇到了障碍,需要创新;另一方面,处处都在用 transformers,所以跟上来吧。」
原文出自 @Andrej Karpathy 的推特:https://twitter.com/karpathy/status/1468370605229547522
ICCV和CVPR 2021论文和代码下载
后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加小助手微信,进交流群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达转载自:机器之心 | 编辑:杜伟、陈萍特斯拉 AI 总监 Andrej Karpathy 连发多条推文表示,AI 不...
我要说的是Tesla
AI
day上他们的视觉方案,其核心模板的名字也叫HydraNet,很多设计非常有启发性,想和咱们自动驾驶从业者以及爱好者一起来学习交流下。
说一句Tesla牛逼!各个模块的负责人都是行业大牛!!其中CV界华人大佬的Fei-Fei Li的学生Andrej K
arp
athy
博士就是我今天要说的这个视觉模块的主讲人。
话不多说,要看懂这个方案我们首先明确一下:Tesla视觉系统的输入和输出↓
图一,Tesla视觉感知系统的输入和输出
Tesla的视觉系统由8个摄像头环绕车身,视
Note: 本文收集
transform
er
领域的较流行的综述文章,将认为比较重要的内容整理在一起,用于学习和提供思路。
1.谷歌:Efficient
Transform
er
s: A Survey(2020年9月)
2.华为、北大:A Survey on Visual
Transform
er
(2020年12月)
3.复旦大学邱锡鹏组综述:A Survey of
Transform
er
s(2021年6月15日)
随着transfom
er
的成功,各种基于原始transfomr
er
的变形不断被提出,作者将其归纳为3
Transform
er
的常用Tokeniz
er
系列 -
Java
实现
这个sdk里包含了用于自然语言处理的tokeniz
er
(分词器)。
切词输出的token序列,兼容huggingface(一个python实现的知名NLP库)。
java
实现的Tokeniz
er
有助于在
java
环境部署NLP
模型
。
包含的tokeniz
er
如下:
SimpleTokeniz
er
B
er
tTokeniz
er
WordpieceTokeniz
er
B
er
tFullTokeniz
er
ClipBPETokeniz
er
Transform
er
是 Google 的团队在 2017 年提出的一种 NLP 经典
模型
,现在比较火热的 B
er
t 也是基于
Transform
er
。
Transform
er
模型
使用了 Self-Attention 机制,不采用 RNN和LSTM 的顺序结构,使得
模型
可以并行化训练,而且能够拥有全局信息。
1.
Transform
er
结构
首先介绍
Transform
er
的整体结构,下图是
Transform
er
用于中英文翻译的整体结构。
1
Transform
er
发展历程
Transform
er
类的
模型
目前在自然语言处理任务中大放异彩,部分任务已超越人类水平。本文将
Transform
er
分为三大类别,分别是seq2seq、Autoregressive(AR)和Autoencoding(AE),以及介绍了B
ER
T、DeB
ER
Ta、GPT、BART等等各种
transform
er
模型
。
1.1 序列到序列
模型
(seq2seq)
seq2seq属于encod
er
-decod
er
结构的一种,基本思想就是利用两个RNN,一个RNN作为encod
er
,另
注意力机制是一种在现代
深度学习
模型
中无处不在的方法,它有助于提高神经机器翻译应用程序性能的概念。在本文中,我们将介绍
Transform
er
这种
模型
,它可以通过注意力机制来提高训练
模型
的速度。在特定任务中,
Transform
er
的表现优于Google神经机器翻译
模型
。但是,最大的好处来自于
Transform
er
如何适用于并行化。实际上,Google Cloud建议使用
Transform
er
作为参考
模型
来使用其Cloud TPU产品。因此,我们试试将
模型
分解开吧,看看它是如何工作的。
Atten...