Meta AI在2022年5月3日新发布的OPT-175B模型,该模型是现阶段第一个
模型参数超过千亿级别的开放
模型,其次该模型与GPT-3相比,
更加开放及便于访问
。
具体开放性表现在如下几个方面:
1.
论文
: 提供了某些能力是可能的存在证明,并揭示可以建立在此基础上的一般思想
2.
API访问
:允许研究人员探索和评估现有基础模型的能力(例如,推理)和局限性(例如,偏差)
3.
模型权重
:允许研究人员逐步改进现有模型,开发更深入的可解释技术和更有效的微调方法
4.
训练数据
:让研究人员更好地理解训练数据在模型行为中的作用——例如,情境学习从何而来?(不过,有些数据可能很难公布。)
5.
计算
:允许研究人员尝试新的架构,培训目标/程序,进行数据集消融,并在不同领域开发全新的模型。这具有最大的理解和改进潜力,但也相当昂贵。
项目地址
:
https://github.com/facebookresearch/metaseq
论文地址
:
https://arxiv.org/pdf/2205.01068.pdf
请求访问权限地址:
https://forms.gle/dag8g7nKiR4o4VZq5
以下为Meta AI官网的发布声明。
大型语言模型
--
具有超过 1000 亿个参数的自然语言处理 (NLP) 系统——在过去几年中改变了 NLP 和 AI 研究。
基于大规模不同体量
的文本训练,
这些模型
在生成创意文本、解决基本数学问题、回答阅读理解问题等方面表现出
惊人
能力。虽然在某些情况下,公众可以通过付费 API 与这些模型进行交互,但
全部的
研究访问权限仍然仅限
于
少数资源丰富的实验室
中
。这种受限访问限制了研究人员理解这些大型语言模型如何以及为什么工作的能力,阻碍了提高其稳健性和减轻
类似
偏见和
危害性
等已知问题的努力的进展。
根据 Meta AI 对开放科学的承诺,我们正在分享
Open Pretrained Transformer (OPT-175B),一种
在
公开可用的数据集
训练的
具有 1750 亿个参数的语言模型
,以允许更多的社区参与了解这项基础新技术。对于
首次实现
这种规模的语言技术系统,
此次发布
包括预训练模型以及训练和使用它们所需的代码
。为了保持完整性并防止滥用,我们将在非商业许可下发布我们的模型,以专注于研究用例。该模型的访问权限将授予学术研究
者,即
隶属于政府、民间社会和学术界组织的人员
,
以及世界各地的工业研究实验室。
我们相信整个人工智能社区——学术研究人员、
民间
社会、政策制定者和
工业界
——必须共同努力,围绕负责任的人工智能
制定明确的指导方针
,特别是负责任的大型语言模型,因为它们在许多下游
语言
应用中处于中心地位。人工智能社区中更广泛的部分需要访问这些模型,以便进行可重复的研究并共同推动该领域的发展。随着 OPT-175B 和小规模基线的发布,我们希望增加定义此类技术伦理考虑的
话语
多样性。
OPT-175B
的责任
发布
根据人工智能伙伴关系为研究人员制定的出版指南,以及NIST在2022年3月概述的治理指南(第3.4节),我们
发布了所有记录开发过程的笔记,包括详细描述日常
训练
过程的完整日志
,以便其他研究人员可以更容易地在我们的工作基础上进行构建。此外,这些细节揭示了用于训练OPT-175B的计算量,以及当底层基础设施或训练过程本身在规模上变得不稳定时所需的人力开销。
我们正在共享 OPT-175B,以及仅使用
16 个 NVIDIA V100 GPU 来训练和部署模型的代码库
,以增加这些模型的可访问性,专门用于研究目的,并为分析根植于可量化的潜在危害提供基础通用共享模型上的指标。我们还
全面发布了一套更小规模的基线模型
,在相同的数据集上进行训练,并使用与 OPT-175B 类似的
配置
,以使研究人员能够单独研究规模的影响。这些小规模模型的参数计数包括
1.25亿、3.5亿、13亿、27亿、67亿、130亿和300亿
(660亿即将发布)。
负责任的计算
人工智能研究的最新进展消耗了大量的计算能力。虽然行业实验室已经开始报告这些模型的碳足迹,但大多数不包括与实验的研发阶段相关的计算成本,在某些情况下,这可能比
训练
最终模型的资源密集型多一个数量级。
我们在开发OPT-175B时考虑到了能源效率,成功地训练了这种规模的模型,
只使用了GPT-3的1/7的碳足迹
。这是通过结合Meta的
开源完全分片数据并行(FSDP) API和NVIDIA的张量并行抽象在
Megetron-LM
中实现
的。我们在NVIDIA的80gb A100 GPU上实现了约147 TFLOP/s/GPU的利用率,比NVIDIA研究人员公布的在类似硬件上的利用率大约高17%。
通过共享这些基线和代码库来有效地训练175B模型,我们有机会减少我们集体的环境足迹,同时也允许以一致的方式测量该领域的新结果和进展。
通过开放合作推动研究向前发展
为了推进人工智能研究,更广泛的科学界必须能够与前沿模型合作,有效地探索它们的潜力,同时也探索它们的弱点。与我们之前的开放科学计划一样,如图像相似性挑战、深度造假检测挑战和可恶的表情包挑战,Meta AI认为,跨研究机构的合作对负责任的人工智能技术的发展至关重要。
虽然在大型语言模型领域有许多令人兴奋的发展,但这些模型所带来的限制和风险仍然没有被很好地理解。如果不能直接使用这些模型,研究人员为可能的危害设计检测和缓解
策略
的能力也有限,这使得检测和缓解工作只掌握在那些有足够资金使用这种规模模型的人手中。我们希望OPT-175B将为大型语言模型创建的前沿带来更多的声音,帮助社区共同设计负责任的发布策略,并为该领域的大型语言模型的开发增加前所未有的透明度和开放性。
在
这里
访问开放源代码和小规模预训练模型,在
这里
请求访问OPT-175B,在
这里
阅读论文。
预训练模型
均根据
OPT-175B许可协议
进行许可。
Meta AI在2022年5月3日新发布的OPT-175B模型,该模型是现阶段第一个模型参数超过千亿级别的模型,其次该模型与GPT-3相比,更加开放及便于访问。具体开放性表现在如下几个方面:1.论文: 提供了某些能力是可能的存在证明,并揭示可以建立在此基础上的一般思想2.API访问:允许研究人员探索和评估现有基础模型的能力(例如,推理)和局限性(例如,偏差)3. 模型权重:允许研究人员逐步改进现有模型,开发更深入的可解释技术和更有效的微调方法4. 训练数据:让研究人员更好地理解训练数..
#今日论文推荐#重磅!
Meta
AI
开源
OPT
-
175B
:1750亿参数大
模型
有研究者表示这是将大型 LM 研究引入学术界的重大一步。用一句话总结就是:
Meta
AI
正在开放用于
人工智能
研究的大型
语言
模型
访问权限,并表示这个具有 1750 亿参数的
模型
,是第一个可供更广泛的
人工智能
研究社区使用的
模型
。值得注意的是,Open
AI
提出的 GPT-3 也具有 1750 亿参数,不知道这一数字是巧合还是其他。
下面我们介绍一下这项研究的主要内容。
Meta
AI
开放 1750 亿参数的
模型
大型
语言
模型
,即
https://github.com/balancap/SSD-Tensorflow中SSD-300 VGG-based, SSD-300 VGG-based,SSD-512 VGG-based从google drive转存文件到百度云。
VGG_VOC0712_SSD_300x300_ft_it
er
_120000.ckpt
VGG_VOC0712_SSD_300x300_ite...
关于遗传算法的染色体编码过程,一般有三种方式:二进制编码、实数编码和排列编码。其中,二进制编码是最常用的方式,将每个决策变量转化为一串二进制数,然后将这些二进制串拼接成一个长串作为染色体。而实数编码则是将每个决策变量转化为一个实数,然后将这些实数按照一定的顺序排列成一个长串作为染色体。排列编码则是将每个决策变量看作是一个位置,然后将这些位置按照一定的顺序排列成一个长串作为染色体。
粒子群算法的局部更
新
和全局更
新
方式,是指在算法迭代过程中,如何更
新
每个粒子的位置和速度。局部更
新
方式是指每个粒子只考虑自己和其邻居粒子的最优解,而全局更
新
方式则是指每个粒子考虑整个群体的最优解。具体来说,局部更
新
方式一般采用随机选择一些邻居粒子,并从中选择最优解来更
新
自己的位置和速度;而全局更
新
方式则是将整个群体的最优解作为参考,来更
新
每个粒子的位置和速度。
关于Scikit-
opt
工具库的使用方法,可以参考其官方文档或者相关教程。该工具库是一个Python实现的优化算法库,包括遗传算法、粒子群算法、蚁群算法等多种优化算法,可以用于解决各种优化问题。使用该工具库,需要先安装相应的依赖库,然后根据具体问题选择合适的优化算法,并设置相应的参数,最后运行算法即可得到优化结果。