首发于 AGI专栏
基于LLaMA复现ChatGPT的方案一览

基于LLaMA复现ChatGPT的方案一览

前言

自从Meta开源LLaMA(Large Language Model Meta AI)后,一些类ChatGPT的模型便如雨后春笋般涌现,这里简要介绍下Alpaca和Vicuna两种方案。

一、Alpaca(以7B为例)

Alpaca-Full Tuning

数据使用:在175个seed tasks基础上,让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循(instruction-following)样本,以此作为 Alpaca 的训练数据

硬件&时间:8 张 80GB A100 上微调了 3 个小时

评估&效果:人工评估。评估表明Alpaca 的性能与 text-davinci-003 非常相似。

Alpaca项目地址: github.com/tatsu-lab/st

self-instruct项目地址: GitHub - yizhongw/self-instruct: Aligning pretrained language models with instruction data generated by themselves.

Alpaca-LoRA

为了进一步降低微调成本,一位来自斯坦福的研究者 ——Eric J. Wang 使用 LoRA(low-rank adaptation)技术复现了 Alpaca 的结果。

硬件&时间:一张RTX 4090 显卡(24GB),只用 5 个小时就训练了一个和 Alpaca 水平相当的模型

项目地址: GitHub - tloen/alpaca-lora: Instruct-tune LLaMA on consumer hardware

三、Vicuna(以13B为例)

数据使用:7W ShareGPT数据(ShareGPT:一个ChatGPT 数据共享网站,用户会上传自己觉得有趣的ChatGPT回答)

硬件:8 A100 GPUs with 80GB

评估&效果:使用GPT-4评估。评估表明Vicuna达到了ChatGPT 90%的性能。评估链接: vicuna.lmsys.org/eval/

项目地址: github.com/lm-sys/FastC

PS:Vicuna使用GPT-4的评估方式有感而发,完全可以通过GPT-4构造大量的Comparison数据,从而快速构建出一个Reward模型用于后续PPO。

参考资料:

  1. github.com/tatsu-lab/st
  2. GitHub - tloen/alpaca-lora: Instruct-tune LLaMA on consumer hardware
  3. github.com/lm-sys/FastC
  4. GitHub - yizhongw/self-instruct: Aligning pretrained language models with instruction data generated by themselves.

发布于 2023-04-09 16:06 ・IP 属地广东

文章被以下专栏收录