重磅！Meta AI开源OPT-175B：1750亿参数大模型_Amusi（CVer）的博客

相关文章推荐

大方的茄子 · “两高”联合发布环境污染犯罪司法解释 - ...· 9 月前 ·

气宇轩昂的豆腐 · 调研五菱汽车（00305）零距离接触“神车” ...· 1 年前 ·

追风的烤地瓜 · 付费看《陈翔六点半之民间高手》的人你的钱包疼 ...· 1 年前 ·

火爆的茴香 · 巴索罗缪·大熊_百度百科· 1 年前 ·

重感情的手术刀 · 销量、价格、折扣、口碑…这里有荣威ei6 ...· 1 年前 ·

Meta AI 在昨天公布的一篇论文可谓是炸开了锅，论文网站 paperswithcode 热搜榜第一，众多 AI 大佬推荐：

LSTM 提出者和奠基者，奥地利人工智能高级研究所（IARAI）创始人 Sepp Hochreiter 教授就在推特上进行了宣传：

社交及新闻网站 reddit 讨论量也爆表：

有研究者表示这是将大型 LM 研究引入学术界的重大一步。用一句话总结就是：Meta AI 正在开放用于人工智能研究的大型语言模型访问权限，并表示这个具有 1750 亿参数的模型，是第一个可供更广泛的人工智能研究社区使用的模型。值得注意的是，OpenAI 提出的 GPT-3 也具有 1750 亿参数，不知道这一数字是巧合还是其他。

下面我们介绍一下这项研究的主要内容。

Meta AI 开放 1750 亿参数的模型

大型语言模型，即具有超过 1000 亿个参数的自然语言处理 (NLP) 系统，在过去几年中改变了 NLP 和 AI 研究。这些模型经过大量文本训练，在生成创意文本、解决数学问题、回答阅读理解等方面表现出令人惊讶的能力。

虽然在某些情况下，公众可以通过付费 API 与这些模型进行交互，但完整的研究访问权限仍然仅限于少数资源丰富的实验室。这种受限访问限制了研究人员理解这些大型语言模型如何以及为什么工作的能力，阻碍了提高其鲁棒性和减轻偏见等已知问题的进展。

根据 Meta AI 对开放科学的承诺，他们正在共享 Open Pretrained Transformer (OPT-175B)，这是一个具有 1750 亿参数的模型，在公共数据集上训练而成，之所以共享这个模型，Meta AI 希望更多的社区参与理解关于大模型的基本技术。

论文：https://arxiv.org/pdf/2205.01068

代码：https://github.com/facebookresearch/metaseq

对于这种规模的语言技术系统，该版本首次包括预训练模型以及训练和使用它们所需的代码。为了保持完整性并防止滥用，Meta AI 将在非商业许可下发布该模型，以专注于研究用例。该模型的访问权限将授予学术研究人员；隶属于政府、民间团体和学术界组织的人员；以及世界各地的工业研究实验室。

Meta AI 希望整个人工智能社区，包括学术研究人员、民间团体、政策制定者等研究者共同努力，围绕负责任的人工智能，特别是负责任的大型语言模型制定明确的指导方针，因为它们在许多下游语言应用程序中处于中心地位。人工智能社区更需要访问这些模型，以便进行可重复的研究并共同推动该领域的发展。随着 OPT-175B 和小规模基线的发布，Meta AI 也希望增加伦理方面的考虑。

公开记录文档

根据 AI 合作伙伴关系（Partnership on AI）为研究人员制定的出版指南，以及 NIST 在 2022 年 3 月概述的治理指南（第 3.4 节），Meta AI 将发布开发过程的所有记录文档，包括详细说明日常训练过程的完整 logbook，因此其他研究人员可以更轻松地在此工作基础上继续研究。此外，这些细节还揭示了用于训练 OPT-175B 的计算量以及当底层基础设施或训练过程本身大规模变得不稳定时所需的人力开销。

对此有研究者表示：研究团队的 logbook 是一个隐藏的宝石，突出了自 Lua torch 以来就存在且尚未解决的 ML 研究中的痛点 / 更广泛的问题：

Meta AI 仅使用 16 个 NVIDIA V100 GPU 来训练和部署模型的代码库，以增加这些模型的可访问性，达到专门用于研究目的。Meta AI 还全面发布了一套更小规模的基线模型，使用的数据集和 OPT-175B 相同，设置也和 OPT-175B 类似，这样一来研究人员能够单独研究模型规模的影响。这些小规模模型的参数包括 1.25 亿、3.5 亿、13 亿、27 亿、67 亿、130 亿和 300 亿（660 亿即将发布）。

人工智能研究的最新发展消耗了大量的计算能力。虽然行业实验室已经开始报告这些模型的碳足迹，但大多数不包括与实验研发阶段相关的计算成本，在某些情况下，这可能比训练最终模型更耗费一个数量级的资源。

Meta AI 在开发 OPT-175B 时考虑到了能源效率，其碳足迹仅为 GPT-3 的 1/7。这是通过在 Megatron-LM 中结合 Meta 的开源全分片数据并行 (FSDP) API 和 NVIDIA 的张量并行抽象来实现的。Meta AI 在 NVIDIA 的 80 GB A100 GPU 上实现了约 147 TFLOP/s/GPU 利用率，比 NVIDIA 研究人员在类似硬件上公布的数据高出大约 17%。

通过与代码库共享这些基线以有效地训练 175B 模型，Meta AI 正在减少碳足迹，同时还允许以一致的方式衡量该领域的新成果和进展。

代尔夫特理工大学助理教师 Luís Cruz 表示：很高兴看到新的人工智能论文讨论他们模型的碳足迹。尽管有非常粗略的估计，但 OPT-175B 是作为 GPT-3 的替代品提出的，其碳足迹是 GPT-3 的 1/7。

Meta AI 希望 OPT-175B 能够为大语言模型创建的前沿带来更多声音，帮助社区集体设计负责任的发布策略，为该领域的大语言模型开发增加前所未有的透明度和开放性。

访问开源代码和小规模预训练模型：https://github.com/facebookresearch/metaseq
OPT-175B：https://docs.google.com/forms/d/e/1FAIpQLSe4IP4N6JkCEMpCP-yY71dIUPHngVReuOmQKDEI1oHFUaVg7w/viewform
OPT-175B 许可协议：https://github.com/facebookresearch/metaseq/blob/main/projects/OPT/MODEL_LICENSE.md

ICCV和CVPR 2021论文和代码下载

后台回复： CVPR2021， 即可下载CVPR 2021论文和代码开源的论文合集

后台回复： ICCV2021， 即可下载ICCV 2021论文和代码开源的论文合集

后台回复： Transformer综述， 即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer6666，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群
▲扫码或加微信: CVer6666，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！
▲扫码进群
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达本文转载自：机器之心 |编辑：陈萍OPT-175B，使人工智能更加开放和可复制。Meta AI 在昨天公布的一篇论文可谓是炸开了锅，论文网站 paperswithcode 热搜榜第一，众多 AI 大佬推荐：LSTM 提出者和奠基者，奥地利人工智能高级研究所（IARAI）创始人 Sepp Hochrei... 安装并运行： browser-sync start --port 8001 --server app --files app 安装Docker并运行： docker build -f Dockerfile.dev -t ffxiv-craft- opt -web-dev . docker run --rm -it -p 8001:8001 ffxiv-craft- opt -web-dev node.js，browser-sync和Docker方法选项将在端口8001上提供网站服务。Browser-sync应自动启动默认浏览器并加载应用程序。 M文件的软件包，用于构造和解决数学编程和优化问题。它提供了易于使用的面向对象的界面，用于构建和求解模型。它还包括一个用于调用众多LP，QP，混合整数和非线性求解器的统一接口，并且能够通过更改输入选项简单地切换求解器。它基于最初由康奈尔大学的Ray Zimmerman作为的一部分开发的代码。 7.5版（R2007b）或更高版本，或版本4或更高版本，用于运行MP- Opt -Model测试套件用户注意：安装时包括MP- Opt -Model及其必备软件MIPS和MP-Test。通常不需要单独安装MP- Opt -Model。您可以直接跳到步骤3进行验证。 MP- Opt -Model的安装和使用需要熟悉MATLAB或Octave的基本操作，包括设置MATLAB Octave路径。克隆存储库或下载MP- Opt -Model发行版本的zip文件，并将其从中提取到您选择的位置。不需要修改生成的mp- opt -model或mp- opt -modelXXX目录中的文件，其中XXX取决于MP- Opt -M 用于请求新的激活电子邮件的表格（以防丢失第一条激活电子邮件）该软件包扩展了特征Illuminate \ Foundation \ Auth \ AuthenticatesUsers的功能，因此，如果您使用的是自定义身份验证控制器，则此软件包可能不适合您。此外，该软件包还假设用户模型和用户表用于身份验证（在更高版本中可能会解耦）通过composer安装软件包： composer require "m3rten/laravel-double- opt -in" 将服务提供者添加到config / app.php 'providers' => [ GPT系列的预训练语言模型一直是大力出奇迹的典型代表，但是一代和二代在偏重理解的自然语言处理任务中表现欠佳，逊色于BERT家族。 GPT(Generative Pre-Tr ai ning)是一个12层单向Transformer语言模型。语言模型训练好后，可以用于其他的NLP任务。使用GPT首先要学习神经网络的初始参数，然后，根据具体任务再进行微调。

#今日论文推荐# 重磅 ! Meta AI 开源 OPT - 175B ： 1750 亿参数大模型有研究者表示这是将大型 LM 研究引入学术界的重大一步。用一句话总结就是： Meta AI 正在开放用于 人工智能 研究的大型语言模型访问权限，并表示这个具有 1750 亿参数的模型，是第一个可供更广泛的 人工智能 研究社区使用的模型。值得注意的是，Open AI 提出的 GPT-3 也具有 1750 亿参数，不知道这一数字是巧合还是其他。下面我们介绍一下这项研究的主要内容。 Meta AI 开放 1750 亿参数的模型大型语言模型，即

1. `-p` 选项应该放在 `docker run` 命令的最后面，因为它用来映射端口。 2. `-v` 选项后面的挂载路径应该是这样的: `-v / opt /python3.6/demo/aMedicalBot_demo_quesoar:/app` 3. 在这个命令里面使用了一个多余的 `/bin/bash`，这个参数是在你想要在容器里面执行一个 shell 命令的时候用的，但在这里似乎没有什么必要。正确的命令应该是这样的: docker run -itd --name aMedicalBot -p 5005:5005 -v / opt /python3.6/demo/aMedicalBot_demo_quesoar:/app python:3.8-buster 如果你想要在容器里面执行命令你需要在run 后面加上你需要执行的命令，如下面这样： docker run -itd --name aMedicalBot -p 5005:5005 -v / opt /python3.6/demo/aMedicalBot_demo_quesoar:/app python:3.8-buster /bin/bash