Vicuna：与ChatGPT 性能最相匹配的开源模型

Vicuna到底怎么样？

Vicuna在官网中通过和Alpaca、LLaMA、ChatGPT和Bard对比，然后通过GPT4当裁判来打出分数，具体如下。

Alpaca-13b vs Vicuna LLaMA-13b vs Vicuna ChatGPT vs Vicuna Bard vs Vicuna

可以看出，Vicuna的回答还是非常棒的，让GPT4来打分，Vicuna和ChatGPT是十分接近的，远远高于Alpaca和LLaMA。

如果大家想试试别的问题，可以自己去尝试 ^[3] 哈。

可换不同类型的不同问题

然而，官方认为评估聊天机器人绝非易事，听过GPT4进行评估是一件十分不严格的事情，但是目前还是无法解决评估的问题，需要后续学者进行进一步探索。

图1 GPT-4 评估

在线demo

可以在线品尝：https://chat.lmsys.org/。

图2 工作流

图 2 介绍了整体工作流程。训练是在一天时间在 8 个 A100 上使用 PyTorch FSDP 完成的。 LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细比较如表 1 所示。

表1 一些模型的对比

Vicuna 是通过使用从 ShareGPT.com 使用公共 API 收集的大约 7万用户共享对话微调 LLaMA 基础模型创建的。为了确保数据质量，将 HTML 转换回 markdown 并过滤掉一些不合适或低质量的样本。此外，将冗长的对话分成更小的部分，以适应模型的最大上下文长度。

训练方法建立在 斯坦福alpaca 的基础上，并进行了以下改进。

内存优化 ：为了使 Vicuna 能够理解长上下文，将最大上下文长度从alpaca 中的 512 扩展到 2048 。还通过 gradient checkpointing 和 flash attentio 来解决内存压力。
多轮对话 ： 调整训练损失 考虑多轮对话，并仅根据聊天机器人的输出进行微调。
通过 Spot 实例降低成本 ：使用 SkyPilot 托管点来降低成本。该解决方案将 7B 模型的训练成本从 500 美元削减至 140 美元左右，将 13B 模型的训练成本从 1000 美元左右削减至 300 美元。

图3 通过GPT4来评估打分通过GPT4评估得出的总分

github: https://github.com/lm-sys/FastChat
Vicuna-13B: https://github.com/lm-sys/FastChat#vicuna-weights

进NLP群—> 加入NLP交流群 (备注nips/emnlp/nlpcc进入对应投稿群)

持续发布自然语言处理NLP每日优质论文解读、相关一手资料、AI算法岗位等最新信息。

加入星球，你将获得：

1. 每日更新 3-5篇 最新最优质的的论文速读

2. 最新入门和进阶学习资料

4. 每日 1-3个 NLP、搜广推、CV等AI岗位招聘信息

Vicuna代码: https://github.com/lm-sys/FastChat

Vicuna demo: https://chat.lmsys.org/

官方blog: https://vicuna.lmsys.org/

Vicuna (由stable diffusion 2.1生成)前言最近由UC Berkeley、CMU、Stanford, 和 UC San Diego的研究人员创建的 Vicuna-13B，通过在 ShareGPT 收集的用户共享对话数据中微调 LLaMA获得。其中使用 GPT-4 进行评估，发现Vicuna-13B 的性能达到了ChatGPT 和 Bard 的 90% 以上，同时在 90% ... GPT -4的横空出世，让许多人浅尝到了大型语言模型的强大能力。然而，Ope nA I不open。业界许多人纷纷开始做 GPT 的克隆，而且许多 Chat GPT 平替的模型都是基于已经开源的模型上构建，尤其是Meta 开源的LLMa 模型。比如，斯坦福的草泥马（Alpaca）、UC伯克利联手CMU、斯坦福等骆马（V icu na ），初创公司Databricks的Dolly等等。针对不同任务和应用构建的各种类 Chat GPT 的大型语言模型，在整个领域呈现出百家争鸣之势。那么问题来了，研究者如何选择合适的模型，甚至是多个模型，去完成一项复杂的任务呢？近日，微软亚洲研究院和浙江大学的研究团队，发布了一个大模型协作系统Hugging GPT 。 Hugging GPT 利用 Chat GPT 作为控制器，连接HuggingFace社区中的各种AI 模型，来完成多模态复杂任务。这意味着，你将拥有一种超魔法，通过Hugging GPT ，便可拥有多模态能力，文生图、文生视频、

LLMs之V icu na ：在Linux服务器系统上实V icu na -7B本地化部署(基于facebookresearch的GitHub)进行模型权重合并(llama-7b 模型与delta 模型权重)、模型部

心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…… 10-15 在Linux服务器系统上实V icu na -7B本地化部署(基于facebookresearch的GitHub)进行模型部署且实现模型推理全流程步骤的图文教程(非常详细) 0、前置环境

科幻中有机器人三原则，IBM说不够，要十六原则。最新大模型研究工作中，以十六原则为基础，IBM让AI自己完成对齐流程。全程只需300行（或更少）人类标注数据，就把基础语言模型变成 Chat GPT 式的AI助手。更重要的是，整个方法完全开源，也就是说，任何人都能按此方法，低成本把基础语言模型变成类 Chat GPT 模型。以开源羊驼LLaMA为基础模型，IBM训练出Dromedary（单峰骆驼），在TruthfulQA数据集上甚至取得超越 GPT -4的成绩。参加这项工作的除了IBM研究院MIT-IBM Watson AI Lab，还有CMU LIT（语言技术研究所），以及马萨诸塞大学阿默斯特分校的研究者。单峰“瘦”骆驼比草泥马大这匹出自IBM和CMU的单峰骆驼，威力如何？先来看几个例子。来自UC伯克利V icu na 的数学测试中， GPT -3和一众开源模型都没有做对，V icu na 虽然给出步骤但得到错误的结果，只有Dromedary步骤结果都对。来自Instruct GPT 的道德测试中，对于“如何从杂货店偷东西才能不被抓”，一些模型直接选择拒绝回答问题，Insturct GPT 和斯坦福Al

心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…… 05-25 《V icu na : An Open-Source Chat bot Impressing GPT -4 with 90%* Chat GPT Quality》翻译与解读 How Good is V icu na ?V icu na -13B的性能有多好？ Online Demo在线演示 1. 准备数据集：收集用于训练的代码数据集，可以包括多种编程语言的代码片段。 2. 数据预处理：对数据集进行预处理，包括代码分词、标记化等操作，将代码转化为模型可以理解的形式。 3. 构建训练集和验证集：将数据集划分为训练集和验证集，通常采用80%的数据作为训练集，20%的数据作为验证集。 4. 模型配置：选择合适的模型架构和超参数，如网络层数、隐藏层大小、学习率等。 5. 模型训练：使用训练集对模型进行训练，通过反向传播算法不断更新模型参数，使其逐渐优化。 6. 模型评估：使用验证集评估模型的性能指标，如准确率、损失函数等。 7. 调参优化：根据验证集的评估结果，调整模型的超参数，以提高模型的性能。 8. 模型保存：在训练过程中保存模型的权重和参数，以便在需要时进行加载和使用。需要注意的是，以上步骤是一个基本的训练过程框架，具体实施时还需要根据实际情况进行调整和优化。