相关文章推荐
爱看书的海豚  ·  python云数据库 RDS MySQL ...·  1 年前    · 
想出家的人字拖  ·  低成本、准确、稳健,各类分子通用,上海人工智 ...·  1 年前    · 
微笑的大象  ·  MockWebserver ...·  1 年前    · 
瘦瘦的大熊猫  ·  将「Java ...·  2 年前    · 
高大的小虾米  ·  Jpa使用详解 - 说故事的五公子 - 博客园·  2 年前    · 
Code  ›  扩散模型就是自动编码器!DeepMind研究学者提出新观点并论证开发者社区
deepmind 自动编码器
https://cloud.tencent.com/developer/article/1950323
纯真的柠檬
2 年前
作者头像
量子位
0 篇文章

扩散模型就是自动编码器!DeepMind研究学者提出新观点并论证

前往专栏
腾讯云
开发者社区
文档 意见反馈 控制台
首页
学习
活动
专区
工具
TVP
文章/答案/技术大牛
发布
首页
学习
活动
专区
工具
TVP
返回腾讯云官网
社区首页 > 专栏 > 量子位 > 扩散模型就是自动编码器!DeepMind研究学者提出新观点并论证

扩散模型就是自动编码器!DeepMind研究学者提出新观点并论证

作者头像
量子位
发布 于 2022-03-04 10:52:38
382 0
发布 于 2022-03-04 10:52:38
举报
明敏 发自 凹非寺 量子位 | 公众号 QbitAI

由于在图像生成效果上可以与GAN媲美, 扩散模型 最近成为了AI界关注的焦点。

谷歌、OpenAI过去一年都提出了自家的扩散模型,效果也都非常惊艳。

另一边,剑桥大学的学者David Krueger提出, 自动编码器 会不会卷土重来成为研究热潮。

就在最近,DeepMind的一位研究科学家Sander Dieleman基于以上两股热潮,提出了自己的观点:

扩散模型就是自动编码器啊!

这一观点立刻引起了不少网友的注意,大家看了Sander的阐述,都觉得说得很有道理,并且给了自己不少启发。

那么,他到底是如何论证自己这一观点的呢?

我们一起来看。

去噪自动编码器=扩散模型

想要看透这二者之间的联系,首先要看看它们自身的特点。

扩散模型 是一种新的图像生成方法,其名字中的“扩散”本质上是一个迭代过程。

它最早于2015提出,是定义了一个马尔可夫链,用于在扩散步骤中缓慢地向数据添加随机噪声,然后通过学习逆转扩散过程从噪声中构建所需的数据样本。

相比GAN、VAE和基于流的生成模型,扩散模型在性能上有不错的权衡,最近已被证明在图像生成方面有很大的潜力,尤其是与引导结合来兼得保真度和多样性。

比如去年谷歌提出的级联(Cacade)扩散模型SR3,就是以低分辨率图像为输入,从纯噪声中构建出对应的高分辨率图像。

OpenAI的GLIDE、ADM-G也是用上了扩散模型,以此能生成更加更真实、多样、复杂的图像。

△ GLIDE模型效果

接下来,再来看 自动编码器 的原理。

自动编码器可以理解为一个试图去还原原始输入的系统,模型如下所示:

它的主要目的是将输入转换为中间变量,然后再将中间变量转化为输出,最后对比输入和输出,使它们二者之间无限接近。

当模型框架中存在 瓶颈层 或者 输入被损坏 时,自动编码器能够学习输入 本质特征 的特性,就可以大显身手了。

在这里,作者主要拿来和扩散模型对比的,便是 去噪自动编码器 。

它可以将损坏数据作为输入,通过训练来预测未损坏的原始数据作为输出。

看到这里是不是有点眼熟了?

向输入中加入噪声,不就是一种破坏输入的方法吗?

那么,去噪自动编码器和扩散模型,原理上不就是有着异曲同工之妙吗?

二者是如何等价的?

为了验证自己的这一想法,作者从原理方面对扩散模型进行了拆解。

扩散模型的关键,在于一个 分数函数 (score function)

。

需要注意的是,这和

不同。(求梯度的参数不同)

通过后者,我们可以知道如何改变模型参数来增加向下输入的可能性,而前者能够让我们知道如何改变 输入本身 来增加可能性。

在训练过程中,希望在去噪中的每一点都使用相同的网络。

为了实现这个,需要引入一个额外的输入

,由此可以看到在去噪中进行到了哪一部分

。

当t=0时,对应无噪声数据;t=1时,对应纯噪声数据。

训练这个网络的方法,就是用添加噪声

来破坏输入 x 。然后从

中预测

。

需要注意的是,在这里方差大小取决于 t ,因为它可以对应特定点的噪声水平。损失函数通常使用均方误差(MSE),有时会用 λ(t)进行加权,因此某些噪声水平会优先于其他噪声水平:

假设λ(t)=1时,一个关键的观测值为

或 x(它们二者是等价的),在这里可以用公式:

为了确保它们是等价的,可以考虑使用训练模型

来预测

,并加上一个新的 残差连接 。从输入到输出的比例系数均为-1,这个调整后的模型则实现了:

由此,一个扩散模型便逐渐变成一个去噪自动编码器了!

One More Thing

不过博客的作者也强调,虽然扩散模型和去噪自动编码器的效果等价,但是二者之间 不可完全互换 。

并且以上得到的这个去噪自动编码器,和传统类型也有不同:

  • 第一,附加输入t可以使单个模型用一组 共用参数 来处理噪声级别不同的情况;
  • 第二,因为更加关注模型的输出,所以内部没有瓶颈层,这可能会导致“弊大于利”的结果。

而作者更想强调的是这二者之间存在的联系。

此外他还表示,模型效果好的关键应该在于 共用参数 ,这种方法已经被广泛应用在 表示学习 上。

从这些成果中也能发现一个规律:

  • 噪声含量越高的模型,往往更容易学习到图像的特征;
  • 噪声含量越低的模型,则会更专注于细节。

作者认为以上规律值得进一步研究:

这意味着随着噪声水平逐步降低,扩散模型能够补充图像细节也就越来越多。

最后,我们再来介绍一下这一发现的提出者——Sander Dieleman。

他现在是DeepMind的一位研究科学家,主要研究领域为生成模型和音乐合成。

参与的主要研究工作有Spotify音乐平台的内容推荐模型。

参考链接: [1]https://benanne.github.io/2022/01/31/diffusion.html [2]https://twitter.com/sedielem

— 完 —

「智能汽车」交流群招募中!

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群,与行业大咖交流、切磋,不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

点击展开阅读全文
本文参与 腾讯云自媒体分享计划 ,分享自微信公众号。
原始发表:2022-02-12 ,如有侵权请联系 cloudcommunity@tencent.com 删除
ide
https
机器学习
神经网络
深度学习

本文分享自 量子位 微信公众号, 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

ide
https
机器学习
神经网络
深度学习
评论
登录 后参与评论
0 条评论
热度
最新
登录 后参与评论
关于作者
量子位
0
文章
0
累计阅读量
0
获赞
前往专栏
目录
  • 去噪自动编码器=扩散模型
  • 二者是如何等价的?
  • One More Thing
切换旧版
领券
  • 社区

    • 专栏文章
    • 阅读清单
    • 互动问答
    • 技术沙龙
    • 技术视频
    • 团队主页
    • 腾讯云TI平台
  • 活动

    • 自媒体分享计划
    • 邀请作者入驻
    • 自荐上首页
    • 技术竞赛
  • 资源

    • 技术周刊
    • 社区标签
    • 开发者手册
    • 开发者实验室
  • 关于

    • 社区规范
    • 免责声明
    • 联系我们
    • 友情链接

腾讯云开发者

扫码关注腾讯云开发者

扫码关注腾讯云开发者

领取腾讯云代金券

热门产品

  • 域名注册
  • 云服务器
  • 区块链服务
  • 消息队列
  • 网络加速
  • 云数据库
  • 域名解析
  • 云存储
  • 视频直播

热门推荐

  • 人脸识别
  • 腾讯会议
  • 企业云
  • CDN加速
  • 视频通话
  • 图像分析
  • MySQL 数据库
  • SSL 证书
  • 语音识别

更多推荐

  • 数据安全
  • 负载均衡
  • 短信
  • 文字识别
  • 云点播
  • 商标注册
  • 小程序开发
  • 网站监控
  • 数据迁移

Copyright © 2013 - 2023 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有

深圳市腾讯计算机系统有限公司 ICP备案/许可证号: 粤B2-20090059 深公网安备号 44030502008569

腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287

问题归档 专栏文章 快讯文章归档 关键词归档 开发者手册归档 开发者手册 Section 归档

Copyright © 2013 - 2023 Tencent Cloud.

All Rights Reserved. 腾讯云 版权所有

登录 后参与评论
 
推荐文章
爱看书的海豚  ·  python云数据库 RDS MySQL 版数据-阿里云
1 年前
想出家的人字拖  ·  低成本、准确、稳健,各类分子通用,上海人工智能实验室开发MD模拟AI新方法_子系统_训练_数据
1 年前
微笑的大象  ·  MockWebserver Retrofit SSLHandshakeException:连接关闭-腾讯云开发者社区-腾讯云
1 年前
瘦瘦的大熊猫  ·  将「Java OpenCV」中Mat通过JNI传递给「C++ OpenCV」_jni传递mat数据-CSDN博客
2 年前
高大的小虾米  ·  Jpa使用详解 - 说故事的五公子 - 博客园
2 年前
今天看啥   ·   Py中国   ·   codingpro   ·   小百科   ·   link之家   ·   卧龙AI搜索
删除内容请联系邮箱 2879853325@qq.com
Code - 代码工具平台
© 2024 ~ 沪ICP备11025650号