基于LLaMA复现ChatGPT的方案一览
前言
自从Meta开源LLaMA(Large Language Model Meta AI)后,一些类ChatGPT的模型便如雨后春笋般涌现,这里简要介绍下Alpaca和Vicuna两种方案。
一、Alpaca(以7B为例)
Alpaca-Full Tuning
数据使用:在175个seed tasks基础上,让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循(instruction-following)样本,以此作为 Alpaca 的训练数据
硬件&时间:8 张 80GB A100 上微调了 3 个小时
评估&效果:人工评估。评估表明Alpaca 的性能与 text-davinci-003 非常相似。
Alpaca项目地址: https:// github.com/tatsu-lab/st anford_alpaca
self-instruct项目地址: GitHub - yizhongw/self-instruct: Aligning pretrained language models with instruction data generated by themselves.
Alpaca-LoRA
为了进一步降低微调成本,一位来自斯坦福的研究者 ——Eric J. Wang 使用 LoRA(low-rank adaptation)技术复现了 Alpaca 的结果。
硬件&时间:一张RTX 4090 显卡(24GB),只用 5 个小时就训练了一个和 Alpaca 水平相当的模型
项目地址: GitHub - tloen/alpaca-lora: Instruct-tune LLaMA on consumer hardware
三、Vicuna(以13B为例)
数据使用:7W ShareGPT数据(ShareGPT:一个ChatGPT 数据共享网站,用户会上传自己觉得有趣的ChatGPT回答)
硬件:8 A100 GPUs with 80GB
评估&效果:使用GPT-4评估。评估表明Vicuna达到了ChatGPT 90%的性能。评估链接: https:// vicuna.lmsys.org/eval/
项目地址: https:// github.com/lm-sys/FastC hat
PS:Vicuna使用GPT-4的评估方式有感而发,完全可以通过GPT-4构造大量的Comparison数据,从而快速构建出一个Reward模型用于后续PPO。
参考资料:
- https:// github.com/tatsu-lab/st anford_alpaca
- GitHub - tloen/alpaca-lora: Instruct-tune LLaMA on consumer hardware
- https:// github.com/lm-sys/FastC hat
- GitHub - yizhongw/self-instruct: Aligning pretrained language models with instruction data generated by themselves.