相关文章推荐
温暖的火腿肠  ·  杭州市教育局副局长郑利敏同志解读政策 - ...·  5 月前    · 
大气的电影票  ·  Faulting application ...·  1 年前    · 
有胆有识的单杠  ·  为什么XSRF-TOKEN可以用于防止跨站请 ...·  1 年前    · 
月球上的灌汤包  ·  【Git】如何在Vscode中使用码云(Gi ...·  1 年前    · 
销魂的杯子  ·  福布斯全球最牛2000家企业:平安挺入前八强·  2 年前    · 
Code  ›  AI芯片的一些变化:DeepSpeed Chat具有以下三大核心功能:1. 简化ChatGPT类型模型的训练和强化推理体...
https://xueqiu.com/6347482150/247307557
刀枪不入的小蝌蚪
2 年前
首页
行情
行情中心 筛选器 新股上市 买什么
交易
A股交易 基金交易 私募中心
下载App
扫一扫,下载
 登录/注册
周期合伙人
周期合伙人 ()
修改于2023-04-13 13:25 来自雪球 · 上海
 关注

来源:雪球App,作者: 周期合伙人,(https://xueqiu.com/6347482150/247307557)

AI芯片的一些变化:

DeepSpeed Chat具有以下三大核心功能:

1. 简化ChatGPT类型模型的训练和强化推理体验

开发者只需一个脚本,就能实现多个训练步骤,并且在完成后还可以利用推理API进行对话式交互测试。

2. DeepSpeed-RLHF模块

DeepSpeed-RLHF复刻了InstructGPT论文中的训练模式,并提供了数据抽象和混合功能,支持开发者使用多个不同来源的数据源进行训练。

3. DeepSpeed-RLHF系统

团队将DeepSpeed的训练(training engine)和推理能力(inference engine) 整合成了一个统一的混合引擎(DeepSpeed Hybrid Engine or DeepSpeed-HE)中,用于RLHF训练。由于,DeepSpeed-HE能够无缝地在推理和训练模式之间切换,因此可以利用来自DeepSpeed-Inference的各种优化。

DeepSpeed-RLHF系统在大规模训练中具有无与伦比的效率,使复杂的RLHF训练变得快速、经济并且易于大规模推广:

高效且经济:

DeepSpeed-HE比现有系统快15倍以上,使RLHF训练快速且经济实惠。例如,DeepSpeed-HE在Azure云上只需9小时即可训练一个OPT-13B模型,只需18小时即可训练一个OPT-30B模型。

这两种训练分别花费不到300美元和600美元


对算力的影响有待观察,暂时还在PPT阶段。

$寒武纪-U(SH688256)$ $芯原股份(SH688521)$ $景嘉微(SZ300474)$

   
 
推荐文章
温暖的火腿肠  ·  杭州市教育局副局长郑利敏同志解读政策 - 中华人民共和国教育部政府门户网站
5 月前
大气的电影票  ·  Faulting application name: Explorer.EXE, Faulting module name: Windows.UI.Xaml.dll - Microsoft Q&A
1 年前
有胆有识的单杠  ·  为什么XSRF-TOKEN可以用于防止跨站请求伪造(CSRF或XSRF)攻击-CSDN博客
1 年前
月球上的灌汤包  ·  【Git】如何在Vscode中使用码云(Gitee)实现远程代码仓库与本地同步?(新手图文教程)_vscode 码云-CSDN博客
1 年前
销魂的杯子  ·  福布斯全球最牛2000家企业:平安挺入前八强
2 年前
今天看啥   ·   Py中国   ·   codingpro   ·   小百科   ·   link之家   ·   卧龙AI搜索
删除内容请联系邮箱 2879853325@qq.com
Code - 代码工具平台
© 2024 ~ 沪ICP备11025650号