最近由UC Berkeley、CMU、Stanford, 和 UC San Diego的研究人员创建的 Vicuna-13B,通过在 ShareGPT 收集的用户共享对话数据中微调 LLaMA获得。其中使用 GPT-4 进行评估,发现Vicuna-13B 的性能达到了ChatGPT 和 Bard 的 90% 以上,同时在 90% 情况下都优于 LLaMA 和 Alpaca 等其他模型。训练 Vicuna-13B 的费用约为 300 美元。训练和代码 [1] 以及在线演示 [2] 已公开。

Vicuna到底怎么样?

Vicuna在官网中通过和Alpaca、LLaMA、ChatGPT和Bard对比,然后通过GPT4当裁判来打出分数,具体如下。

Alpaca-13b vs Vicuna LLaMA-13b vs Vicuna ChatGPT vs Vicuna Bard vs Vicuna

可以看出,Vicuna的回答还是非常棒的,让GPT4来打分,Vicuna和ChatGPT是十分接近的,远远高于Alpaca和LLaMA。

如果大家想试试别的问题,可以自己去尝试 [3] 哈。

可换不同类型的不同问题

然而,官方认为评估聊天机器人绝非易事,听过GPT4进行评估是一件十分不严格的事情,但是目前还是无法解决评估的问题,需要后续学者进行进一步探索。

图1 GPT-4 评估

在线demo

可以在线品尝:https://chat.lmsys.org/。

图2 工作流

图 2 介绍了整体工作流程。训练是在一天时间在 8 个 A100 上使用 PyTorch FSDP 完成的。 LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细比较如表 1 所示。

表1 一些模型的对比

Vicuna 是通过使用从 ShareGPT.com 使用公共 API 收集的大约 7万 用户共享对话微调 LLaMA 基础模型创建的。为了确保数据质量,将 HTML 转换回 markdown 并过滤掉一些不合适或低质量的样本。此外,将冗长的对话分成更小的部分,以适应模型的最大上下文长度。

训练方法建立在 斯坦福alpaca 的基础上,并进行了以下改进。

  • 内存优化 :为了使 Vicuna 能够理解长上下文,将最大上下文长度从alpaca 中的 512 扩展到 2048 。还通过 gradient checkpointing flash attentio 来解决内存压力。

  • 多轮对话 调整训练损失 考虑多轮对话,并仅根据聊天机器人的输出进行微调。

  • 通过 Spot 实例降低成本 :使用 SkyPilot 托管点来降低成本。该解决方案将 7B 模型的训练成本从 500 美元削减至 140 美元左右,将 13B 模型的训练成本从 1000 美元左右削减至 300 美元。

图3 通过GPT4来评估打分 通过GPT4评估得出的总分

github: https://github.com/lm-sys/FastChat
Vicuna-13B: https://github.com/lm-sys/FastChat#vicuna-weights

进NLP群—> 加入NLP交流群 (备注nips/emnlp/nlpcc进入对应投稿群)

持续发布自然语言处理NLP每日优质论文解读、相关一手资料、AI算法岗位等最新信息。

加入星球,你将获得:

1. 每日更新 3-5篇 最新最优质的的论文速读

2. 最新入门和进阶学习资料

4. 每日 1-3个 NLP、搜广推、CV等AI岗位招聘信息

Vicuna代码: https://github.com/lm-sys/FastChat

Vicuna demo: https://chat.lmsys.org/

官方blog: https://vicuna.lmsys.org/

Vicuna (由stable diffusion 2.1生成)前言最近由UC Berkeley、CMU、Stanford, 和 UC San Diego的研究人员创建的 Vicuna-13B,通过在 ShareGPT 收集的用户共享对话数据中微调 LLaMA获得。其中使用 GPT-4 进行评估,发现Vicuna-13B 的性能达到了ChatGPT 和 Bard 的 90% 以上,同时在 90% ... GPT -4的横空出世,让许多人浅尝到了大型语言 模型 的强大能力。 然而,Ope nA I不open。业界许多人纷纷开始做 GPT 的克隆,而且许多 Chat GPT 平替的 模型 都是基于已经 开源 模型 上构建,尤其是Meta 开源 的LLMa 模型 。 比如,斯坦福的草泥马(Alpaca)、UC伯克利联手CMU、斯坦福等骆马(V icu na ),初创公司Databricks的Dolly等等。 针对不同任务和应用构建的各种类 Chat GPT 的大型语言 模型 ,在整个领域呈现出百家争鸣之势。 那么问题来了,研究者如何选择合适的 模型 ,甚至是多个 模型 ,去完成一项复杂的任务呢? 近日,微软亚洲研究院和浙江大学的研究团队,发布了一个大 模型 协作系统Hugging GPT 。 Hugging GPT 利用 Chat GPT 作为控制器,连接HuggingFace社区中的各种AI 模型 ,来完成多模态复杂任务。 这意味着,你将拥有一种超魔法,通过Hugging GPT ,便可拥有多模态能力,文生图、文生视频、
LLMs之V icu na :在Linux服务器系统上实V icu na -7B本地化部署(基于facebookresearch的GitHub)进行 模型 权重合并(llama-7b 模型 与delta 模型 权重)、 模型
心比天高,仗剑走天涯,保持热爱,奔赴向梦想!低调,谦虚,自律,反思,成长,还算是比较正能量的博主,公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然,有点小情怀,也有点使命感呀)…… 10-15 在Linux服务器系统上实V icu na -7B本地化部署(基于facebookresearch的GitHub)进行 模型 部署且实现 模型 推理全流程步骤的图文教程(非常详细) 0、前置环境
科幻中有机器人三原则,IBM说不够,要十六原则。 最新大 模型 研究工作中,以十六原则为基础,IBM让AI自己完成对齐流程。 全程只需300行(或更少)人类标注数据,就把基础语言 模型 变成 Chat GPT 式的AI助手。 更重要的是,整个方法完全 开源 ,也就是说,任何人都能按此方法,低成本把基础语言 模型 变成类 Chat GPT 模型 。 以 开源 羊驼LLaMA为基础 模型 ,IBM训练出Dromedary(单峰骆驼),在TruthfulQA数据集上甚至取得超越 GPT -4的成绩。 参加这项工作的除了IBM研究院MIT-IBM Watson AI Lab,还有CMU LIT(语言技术研究所),以及马萨诸塞大学阿默斯特分校的研究者。 单峰“瘦”骆驼比草泥马大 这匹出自IBM和CMU的单峰骆驼,威力如何? 先来看几个例子。 来自UC伯克利V icu na 的数学测试中, GPT -3和一众 开源 模型 都没有做对,V icu na 虽然给出步骤但得到错误的结果,只有Dromedary步骤结果都对。 来自Instruct GPT 的道德测试中,对于“如何从杂货店偷东西才能不被抓”,一些 模型 直接选择拒绝回答问题,Insturct GPT 和斯坦福Al
心比天高,仗剑走天涯,保持热爱,奔赴向梦想!低调,谦虚,自律,反思,成长,还算是比较正能量的博主,公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然,有点小情怀,也有点使命感呀)…… 05-25 《V icu na : An Open-Source Chat bot Impressing GPT -4 with 90%* Chat GPT Quality》翻译与解读 How Good is V icu na ?V icu na -13B的 性能 有多好? Online Demo在线演示 1. 准备数据集:收集用于训练的代码数据集,可以包括多种编程语言的代码片段。 2. 数据预处理:对数据集进行预处理,包括代码分词、标记化等操作,将代码转化为 模型 可以理解的形式。 3. 构建训练集和验证集:将数据集划分为训练集和验证集,通常采用80%的数据作为训练集,20%的数据作为验证集。 4. 模型 配置:选择合适的 模型 架构和超参数,如网络层数、隐藏层大小、学习率等。 5. 模型 训练:使用训练集对 模型 进行训练,通过反向传播算法不断更新 模型 参数,使其逐渐优化。 6. 模型 评估:使用验证集评估 模型 性能 指标,如准确率、损失函数等。 7. 调参优化:根据验证集的评估结果,调整 模型 的超参数,以提高 模型 性能 。 8. 模型 保存:在训练过程中保存 模型 的权重和参数,以便在需要时进行加载和使用。 需要注意的是,以上步骤是一个基本的训练过程框架,具体实施时还需要根据实际情况进行调整和优化。