相关文章推荐
儒雅的遥控器  ·  同步已有数据库到Django框架报错_run ...·  4 周前    · 
霸气的佛珠  ·  Android studio 导出项目 - ...·  6 月前    · 
读研的排球  ·  JSP太大无法编译成java_jsp文件过大 ...·  7 月前    · 
阳刚的大白菜  ·  matlab高斯滤波器_matlab ...·  11 月前    · 
刀枪不入的钥匙扣  ·  在Angular中创建带有按钮的Datata ...·  1 年前    · 
玩足球的麻辣香锅  ·  vue-cli是什么?和 ...·  1 年前    · 
Code  ›  Meta千亿参数大模型OPT-IML「升级版」来了,完整模型和代码公布!开发者社区
meta
https://cloud.tencent.com/developer/article/2207324
求醉的杯子
1 年前
作者头像
新智元
0 篇文章

Meta千亿参数大模型OPT-IML「升级版」来了,完整模型和代码公布!

前往专栏
腾讯云
开发者社区
文档 意见反馈 控制台
首页
学习
活动
专区
工具
TVP
文章/答案/技术大牛
发布
首页
学习
活动
专区
工具
TVP
返回腾讯云官网
社区首页 > 专栏 > 新智元 > Meta千亿参数大模型OPT-IML「升级版」来了,完整模型和代码公布!

Meta千亿参数大模型OPT-IML「升级版」来了,完整模型和代码公布!

作者头像
新智元
发布 于 2023-01-09 13:34:43
765 0
发布 于 2023-01-09 13:34:43
举报

新智元报道

编辑:Joey 昕朋

【新智元导读】 继今年五月发布的首个千亿参数大模型OPT-175B后,Meta又重磅推出「升级版」OPT-IML,这次有何提升?

今年五月,MetaAI官宣发布了基于1750亿参数的超大模型OPT-175B,还对所有社区免费开放。

12月22日,该模型的更新版本OPT-IML(Open Pre-trained Transformer)正式上线,Meta称其「对2000个语言任务进行了微调,包含1750 亿个参数」,还将为非商业研究用途免费开放。

这次更新的OPT-IML的性能表现如何,先上两张图来看看。

这次的OPT-IML创建了两种模型尺寸,分别是30B和175B。

与旧版OPT模型相比,OPT-IML在14个标准NLP评估任务中的平均表现均优于OPT。

在零次学习任务上两种模型大小分别好7%~ 和32-shot 任务分别好4%~ 和 0.4%~。

在这项研究中,研究人员描述了增加模型和基准大小如何影响指令调整决策对下游任务性能的影响。

为此他们开发了 OPT-IML Bench,这是一个相当大的指令元学习 (IML) 基准,包含2000个NLP任务,这些任务根据现有的八个基准分为任务类别。

为训练OPT-IML 30B和175B,研究人员首先从该框架的角度对应用于 OPT-30B 的指令调优决策提出了见解。

在具有不同目标和输入格式的四个评估基准(PromptSource、FLAN、Super-NaturalInstructions 和 UnifiedSKG)上,OPT-IML 在两个尺度上展示了所有三种泛化技能。

它不仅在所有基准测试中显著优于OPT,而且以极具竞争力的方式优于针对该特定基准优化的现有模型。

此外OPT-IML已经开源,Github链接小编也放在下面啦~

Github链接:https://github.com/facebookresearch/metaseq/tree/main/projects/OPT-IML

接下来通过论文来一起了解一下OPT-IML。

论文链接:https://github.com/facebookresearch/metaseq/blob/main/projects/OPT-IML/optimal_paper_v1.pdf

 
推荐文章
儒雅的遥控器  ·  同步已有数据库到Django框架报错_runtimewarning: model 'teacher.student' was alread
4 周前
霸气的佛珠  ·  Android studio 导出项目 - CSDN文库
6 月前
读研的排球  ·  JSP太大无法编译成java_jsp文件过大编译失败-CSDN博客
7 月前
阳刚的大白菜  ·  matlab高斯滤波器_matlab 显示未调用guasssmoothfilter函数-CSDN博客
11 月前
刀枪不入的钥匙扣  ·  在Angular中创建带有按钮的Datatable,支持行级别的单击事件
1 年前
玩足球的麻辣香锅  ·  vue-cli是什么?和 webpack是什么关系?_wwf1225的博客-CSDN博客
1 年前
今天看啥   ·   Py中国   ·   codingpro   ·   小百科   ·   link之家   ·   卧龙AI搜索
删除内容请联系邮箱 2879853325@qq.com
Code - 代码工具平台
© 2024 ~ 沪ICP备11025650号