月黑见渔灯,孤光一点萤。微微风簇浪,散作满河星。小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖钢丝球的小男孩。今天这篇小作文主要介绍Vicuna模型、基于官方模型13B模型部署服务及对话实测。
更多、更新文章欢迎关注
微信公众号
:
小窗幽记机器学习
。后续会持续整理
模型加速、模型部署、模型压缩、LLM、AI艺术
等系列专题,敬请关注。
Vicuna官方目前(2023年4月)只放出Vicuna-7B和Vicuna-13B,后文的实测部分主要基于Vicuna-13B。Vicuna-13B是在LLaMa-13B的基础上使用监督数据微调得到的模型,数据集来自于ShareGPT.com产生的用户对话数据,共70K条。ShareGPT是一个ChatGPT数据共享网站,用户会上传自己觉得有趣的ChatGPT 回答。使用 GPT-4 作为判断的初步评估表明,Vicuna-13B 达到了 OpenAI ChatGPT 和 Google Bard 90% 以上的质量,同时在>90%的情况下优于 LLaMA 和 Stanford Alpaca 等其他模型。训练 Vicuna-13B 的费用约为300美元。官方也放出了训练代码: https://github.com/lm-sys/FastChat 以及 在线演示demo:https://chat.lmsys.org/。剧透下,后文实测效果,其实吧,还行吧。来个CPU的话术,做好预期管理。
Vicuna整体流程如下:
首先,从 ShareGPT.com 收集了大约 7 万个对话。PS: ShareGPT.com 是一个用户可以分享他们的 ChatGPT 对话的网站。接下来,进一步优化 Alpaca 提供的训练脚本,以更好地处理
多轮对话和长序列
。相较于Alpaca,Vicuna在训练中将序列长度由512扩展到了2048,并且通过
梯度检测
和
flash attention
来解决内存问题; 调整训练损失考虑多轮对话,并仅根据模型的输出进行微调。Vicuna 使用Pytorch FSDP在8张A100上训练了一天。 为了提供Demo演示服务,Vicuna官方实现了一个
轻量级的分布式服务系统
。
在评估方面,通过创建 80 个不同的问题并利用 GPT-4 来对模型输出进行初步评估。为了比较两个不同的模型的输出结果质量,
将每个模型的输出组合成每个问题的单个prompt
。然后将prompt发送到 GPT-4,GPT-4 评估哪个模型提供更好的回复。LLaMA、Alpaca、ChatGPT的详细对比如下:
Vicuna的研究人员使用 ShareGPT.com 的公共 API 收集了大约 7万 用户共享的ChatGPT对话数据,再微调 LLaMA-13B模型得到Vicuna-13B。为了确保数据质量,会将 HTML 转换回 markdown 并过滤掉一些不合适或低质量的样本。此外,将冗长的对话分成更小的部分,以适应模型的最大上下文长度。
训练方法在斯坦福alpaca的基础上进行了以下改进:
评估 AI 聊天机器人极具挑战性,因为它需要检查语言理解、推理和上下文感知。随着AI聊天机器人越来越智能,当前开放的benchmarks可能不足以担此重任。例如,斯坦福的 Alpaca 中使用的评估数据集
self-instruct
,比较SOTA 聊天机器人对这个数据集能够比较好地进行回复,这使得人类很难辨别差异。此外还有一些其他限制:训练/测试数据污染和创建新benchmarks潜在成本较高。为解决这些问题,Vicuna的研究人员提出了一个基于GPT-4的评估框架以自动评估聊天机器人的性能。
首先,设计8类问题,例如费米问题、场景角色扮演和编程/数学任务,以测试聊天机器人各方面的性能。通过仔细的prompt工程,GPT-4 能够生成基线模型难以解决的、多样化且具有挑战性的问题。为每个类别选择10个问题,并从5个聊天机器人收集答案:LLaMA、Alpaca、ChatGPT、Bard 和 Vicuna。然后,要求 GPT-4 根据
有用性、相关性、准确性和细节
来评估各个答案的质量。最终发现GPT-4不仅可以产生相对一致的分数,而且可以详细解释为什么给出这样的分数(详细示例
链接
)。但是,也注意到 GPT-4 不太擅长判断编程和数学问题。
根据
FastChat的教程
,git clone后先安装 fastchat 包:
pip3 install -e .
-e参数, --editable <path/url> Install a project in editable mode (i.e. setuptools "develop mode") from a local project path or a VCS url.
安装之后的包名是fschat
:
pip3 show fschat
Name: fschat
Version: 0.2.2
Summary: An open platform for training, serving, and evaluating large language model based chatbots.
Home-page:
Author:
Author-email:
License:
Location: /opt/python3.10.11/lib/python3.10/site-packages
Requires: accelerate, fastapi, gradio, markdown2, numpy, prompt-toolkit, requests, rich, sentencepiece, shortuuid, tokenizers, torch, transformers, uvicorn, wandb
We release Vicuna weights as delta weights to comply with the LLaMA model license.
所有基于LLaMA的模型都只能给出delta权重,可以从官方提供的地址下载,再将这个delta权重加到original LLaMA权重(下面给出磁链地址)上,最终得到release模型的权重。
# https://huggingface.co/lmsys/vicuna-13b-delta-v0
curl -Lo pytorch_model-00001-of-00003.bin https://huggingface.co/lmsys/vicuna-13b-delta-v0/resolve/main/pytorch_model-00001-of-00003.bin
# SHA256: 627062721346c21f30b679de08edd99abba409d3b37289419480c1d48f5e492a
curl -Lo pytorch_model-00002-of-00003.bin https://huggingface.co/lmsys/vicuna-13b-delta-v0/resolve/main/pytorch_model-00002-of-00003.bin
# SHA256: fe31b044e7b4034d0bf9adea93f1d2ef4e0fa02511914b4c19e72bdcfcacca6b
curl -Lo pytorch_model-00003-of-00003.bin https://huggingface.co/lmsys/vicuna-13b-delta-v0/resolve/main/pytorch_model-00003-of-00003.bin
对于已经下载得到的delta模型,记为vicuna-13b-delta-v0
。还需要下载llama-13B原始模型,并将原始llama-13B模型转出huggingface格式的模型(简称hf),记为llama-13b-hf
:
python3 transformers/src/transformers/models/llama/convert_llama_weights_to_hf.py --input_dir /home/model_zoo/llama --model_size 13B --output_dir /home/model_zoo/llama/llama-13b-hf
需要注意的是,官方发布了delta-v0
和delta-v1
两个版本。按照官方的说法是v1.1版本重构了 tokenization 和 separator,在Vicuna v1.1中separator从原来的"###"改为EOS token "</s>"
。这一改动使得控制生成停止的条件变得更容易,并使其与其他libraries具有更好的兼容性。
在FastChat目录下运行如下命令:
python3 -m fastchat.model.apply_delta \
--base /path/to/llama-13b \
--target /output/path/to/vicuna-13b \
--delta /home/model_zoo/vicuna/vicuna-13b-delta-v0
比如对于Vicuna-7B:
python3 -m fastchat.model.apply_delta \
--base /path/to/llama-7b \
--target /output/path/to/vicuna-7b \
--delta lmsys/vicuna-7b-delta-v1.1
对于Vicuna-13B:
python3 -m fastchat.model.apply_delta \
--base /path/to/llama-13b \
--target /output/path/to/vicuna-13b \
--delta lmsys/vicuna-13b-delta-v1.1
由于官方推荐使用delta-v1,这里运行指令如下:
python3 -m fastchat.model.apply_delta \
--base /home/model_zoo/llama/7B/hugging_face_format/ \
--target /home/model_zoo/vicuna/vicuna-7b \
--delta /home/model_zoo/vicuna/vicuna-7b-delta-v1.1
python3 -m fastchat.model.apply_delta \
--base /home/model_zoo/llama/llama-13b-hf/ \
--target /home/model_zoo/vicuna/vicuna-13b \
--delta /home/model_zoo/vicuna/vicuna-13b-delta-v1.1
如果上述命令直接用在v0版本的话,会报错:
RuntimeError: The size of tensor a (32000) must match the size of tensor b (32001) at non-singleton dimension 0
至此在/home/model_zoo/vicuna/vicuna-13b
得到vicuna-13b模型。
Vicuna-13B需要大约28GB的GPU显存。
python3 -m fastchat.serve.cli --model-path /home/model_zoo/vicuna/vicuna-13b
如果发现输出一些无关的信息,根据issue官方的反馈的解决方案:Tokenizer issues。
需要下载https://huggingface.co/lmsys/vicuna-13b-delta-v0/tree/main
中的special_tokens_map.json
和tokenizer_config.json
以对/home/model_zoo/vicuna/vicuna-13b
中的special_tokens_map.json
和tokenizer_config.json
进行替换。再次运行,模型返回的结果就没有那些无关的信息,比较干净。
如果没有足够的显存,则可以使用模型并行来聚合同一台机器上多个GPU的显存。
python3 -m fastchat.serve.cli --model-path /home/model_zoo/vicuna/vicuna-13b --num-gpus 2
如果想在CPU上运行,则需要大约60GB的内存。
python3 -m fastchat.serve.cli --model-path /home/model_zoo/vicuna/vicuna-13b --device cpu
如果想要以web UI方式提供服务,则需要配置3个部分。
- web servers,用户的交互界面
- model workers,托管模型
- controller,用以协调web server和model worker
python3 -m fastchat.serve.controller --host 0.0.0.0
python3 -m fastchat.serve.model_worker --model-path /home/model_zoo/vicuna/vicuna-13b --model-name vicuna-13b --host 0.0.0.0
当进程完成模型的加载后,会看到「Uvicorn running on …」。
发送测试消息
python3 -m fastchat.serve.test_message --model-name vicuna-13b
返回结果:
Models: ['vicuna-13b']
worker_addr: http://localhost:21002
USER: Tell me a story with more than 1000 words.
ASSISTANT: Once upon a time, in a small village nestled in the heart of a dense forest, there lived a young girl named Maria. She was an orphan
python3 -m fastchat.serve.gradio_web_server --port 8809
现在,就可以打开浏览器和模型聊天了。
为了方便分别查看日志信息,控制器、model worker、gradio web server 分别单独开了终端窗口。
Vicuna是通过使用从ShareGPT收集到的大约7万个用户共享的对话与公共API来微调一个LLaMA基础模型而创建的。
为了确保数据质量,团队将HTML转换回markdown,并过滤掉一些不合适或低质量的样本。此外,团队还将冗长的对话分成较小的片段,以符合模型的最大上下文长度。具体的清洗代码可以参考:data_cleaning
Vicuna官方出于某些考虑,现在暂不发布ShareGPT数据集。如果各个小伙伴想尝试微调代码,可以使用一些虚拟问题dummy.json从而运行代码。也可以遵循相同的格式并插入自己的数据。
团队使用斯坦福Alpaca的代码对模型进行微调,并做了一些修改以支持梯度检查点和Flash注意力。此外,团队也使用与斯坦福Alpaca相似的超参数。
torchrun --nproc_per_node=4 --master_port=20001 fastchat/train/train_mem.py \
--model_name_or_path ~/model_weights/llama-7b \
--data_path playground/data/dummy.json \
--bf16 True \
--output_dir output \
--num_train_epochs 3 \
--per_device_train_batch_size 2 \
--per_device_eval_batch_size 2 \
--gradient_accumulation_steps 16 \
--evaluation_strategy "no" \
--save_strategy "steps" \
--save_steps 1200 \
--save_total_limit 10 \
--learning_rate 2e-5 \
--weight_decay 0. \
--warmup_ratio 0.03 \
--lr_scheduler_type "cosine" \
--logging_steps 1 \
--fsdp "full_shard auto_wrap" \
--fsdp_transformer_layer_cls_to_wrap 'LlamaDecoderLayer' \
--tf32 True \
--model_max_length 2048 \
--gradient_checkpointing True \
--lazy_preprocess True
如果在model saving过程遇到OOM问题,可以参考:solutions
Vicuna-13B是在LLaMa-13B的基础上使用监督数据微调得到的模型,数据集来自于ShareGPT.com产生的用户对话数据,共70K条。使用 GPT-4 作为判断的初步评估表明,Vicuna-13B 达到了 OpenAI ChatGPT 和 Google Bard 90% 以上的质量,同时在>90%的情况下优于 LLaMA 和 Stanford Alpaca 等其他模型。剧透下,后文实测效果,其实吧,还行吧。此外,将冗长的对话分成更小的部分,以适应模型的最大上下文长度。月黑见渔灯,孤光一点萤。
目前支持两种格式的数据集:alpaca 和 sharegpt
在所有类型的数据集中,预训练语料库的规模通常是最大的。在预训练阶段,LLM 从大量未标记的文本数据中学习广泛的知识,然后将其存储在其模型参数中。它使 LLM 具有一定程度的语言理解和生成能力。预训练语料库可以包含各种类型的文本数据,如网页、学术资料、书籍,同时也可以容纳来自不同领域的相关文本,如法律文件、年度财务报告、医学教科书和其他特定领域的数据根据预训练语料库中涉及的领域,它们可以分为两种类型。第一种类型是通用的预训练语料库,它由来自不同领域和主题的大规模文本数据混合组成。这些数据通常包括来自互联网的文本内容,例如新闻、社交媒体、百科全书等。目标是为NLP任务提供通用的语言知识和数据资源。
0. 简介
BiDAF采用多阶段的、层次化处理,使得可以捕获原文不同粒度的特征。同时使用双向的attention流机制以在无需摘要的情况下获得相关问句和原文之间的表征。
1. 相关工作
现有的端-端机器阅读理解中使用到attention机制有3类。
第一类是动态attention机制。attention权重的动态更新是基于给定的query、contex及其先前的attention。 Hermann...
TensorFlow版直接用肖涵博士的bert-as-service。使用方法真的很小白,简单概括为2点:server和client安装。
pip install bert-serving-server # server
pip install bert-serving-client # client, independent of `bert-serving-server`
在server安装完后,启动服务,比如:bert-serving-start -mod
LLM(Language Learning Model)是一个基于预训练模型的自然语言处理框架,可以用于各种NLP任务,如文本分类、命名实体识别、情感分析等。下面是LLM模型的本地部署及微调流程:
1. 下载预训练模型
LLM模型基于预训练模型,可以通过Hugging Face官网下载预训练模型。选择相应的模型并下载到本地。
2. 安装LLM
可以使用pip命令安装LLM,命令如下:
pip install llm
3. 加载预训练模型
使用LLM的load方法加载预训练模型,代码示例如下:
```python
from llm.modeling import LLMForSequenceClassification
model = LLMForSequenceClassification.from_pretrained('path/to/pretrained_model')
4. 微调模型
使用LLM的train方法微调模型,代码示例如下:
```python
import torch
from llm.data import TextDataset, TextDataLoader
from llm.training import LLMTrainer
train_dataset = TextDataset('path/to/train_data', model.tokenizer)
train_loader = TextDataLoader(train_dataset, batch_size=32, shuffle=True)
optimizer = torch.optim.Adam(model.parameters(), lr=5e-5)
trainer = LLMTrainer(model, optimizer)
trainer.train(train_loader, epochs=3)
5. 保存微调后的模型
使用LLM的save_pretrained方法保存微调后的模型,代码示例如下:
```python
model.save_pretrained('path/to/fine_tuned_model')
以上就是LLM模型的本地部署及微调流程。需要注意的是,在微调模型时,需要准备好训练数据,并且调整好超参数,以达到最佳的微调效果。