UC 伯克利发布大语言模型排行榜,Vicuna 夺冠,该语言模型都具备哪些竞争优势?
14 个回答
今天深入体验了下Vicuna,以下是我的takeaways:
- 指令跟随的能力跟ChatGPT有点差距。最典型的就是下面的身份设定任务都经常失败(如下图)。模型会非常倔强地回复你他是Vicuna,是LMSYS训练的模型。
- 针对上面的问题我看了下代码,发现他们专门搞了好几个问身份的语料来训练模型图片,真的是把身份感刻在了骨子里。
- fastchat迭代挺快的,今天试了下他们新加的API功能。整个使用体验几乎和openai的client一模一样,学习成本很低。但目前文档没怎么跟上,有时需要看看代码。例如我在异步环境里用chatCompletion.create失败,看代码才知道要用acreate。
- 试了下Vicuna-7b的embedding,能力非常一般,而且维度4096太大了,那算相似度可真费劲,而且在检索任务上被768维的Instructor Embedding秒杀了。
- 看了下lmsys的成员,好家伙,几乎全是中国人,感觉人才这块可能对于中文大模型不会是短板。
- 使用下来总体还可以,下面这个例子和GPT的能力确实差不多。最后一个图是我提供些knowledge给它后的回答,措辞稍微不达预期。
中文大语言模型评估基准:C-EVAL
C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
https:// arxiv.org/pdf/2305.0832 2v1.pdf
https:// github.com/SJTU-LIT/cev al
https:// cevalbenchmark.com/stat ic/leaderboard.html
Part1 前言
怎么去评估一个大语言模型呢?
- 在广泛的NLP任务上进行评估。
- 在高级LLM能力上进行评估,比如推理、解决困难的数学问题、写代码。
在英文中,已经有不少评测基准:
- 传统英语基准:GLUE,是NLU任务的的评测基准。
- MMLU基准(Hendrycks等人,2021a)提供了从真实世界的考试和书籍中收集的多领域和多任务评价。
- BIG-bench基准(Srivastava等人,2022年)包括204个不同的任务,其中一些任务被认为超出了当前LLM的能力。
- HELM基准(Liang等人,2022年)汇总了42个不同的任务,用从准确性到鲁棒性的7个指标来评估LLMs。
中文评测基准:
- CLUE基准(Xu等人,2020)是第一个大规模的中文NLU基准,现在仍然是使用最广泛和最好的中文基准。
- AGIEval基准(Zhong等人,2023)包含了来自中国高考、中国律师资格考试和中国公务员考试的数据。
- MMCU基准(Zeng,2023)包括来自医学、法律、心理学和教育等四大领域的测试,这些数据也是从中国高考、资格考试以及大学考试中收集的。
Part2 本文的c-eval
与上述评估基准的区别:
- 覆盖更广泛的领域。
- 具有四种不同的难度--特别是C-EVAL HARD基准是中国第一个提供复杂推理问题的基准。
- 努力减少数据泄漏--作者的问题大多来自模拟考试的PDF或Microsoft Word文件,这些文件由作者进一步处理,而AGIEval和MMCU收集的是中国过去国家考试的确切题目。
C-EVAL的概览图。不同颜色的主体表示四个难度等级:初中、高中、大学和专业。
C-EVAL的统计数据。
更详细的各学科统计数据。
1 C-EVAL HARD
从C-EVAL中选择了8个具有挑战性的数学、物理和化学科目,形成一个单独的基准, 即C-EVAL HARD,其中包括高等数学、离散数学、概率和统计、大学化学、大学物理、高 中数学、高中化学和高中物理。这些科目通常涉及复杂的LATEX方程,需要非微妙的推理 能力来解决。图4显示了一个高级数学的例子。C-EVAL HARD与最近创建困难基准以评估高 级推理能力的努力相一致(Hendrycks等人,2021b;Suzgun等人,2022),这是各学科的关键区别。
Part3 数据是怎么来的
2 设计原则
- 虽然不同的LLMs在简单的场景中(如休闲谈话)可能表现相似,但复杂的任务往往是LLMs之间的关键区别(OpenAI,2023).
- 只选择多选题 的形式,因为指标定义明确(准确率),而且其实评估基础模型高级能力一个简单而有效的任务。每个问题有四个选项,只有一个选项是正确答案。
- 减轻数据污染 :来自国家考试的试题,如中国的国家高考(通常称为高考)和国家专业考试,通常在网上广泛传播和获取。因此,这些试题可能在无意中被抓取并纳入法律硕士预培训,导致潜在的数据泄露问题。为了减少这种风险,作者 从模拟考试或小规模的地方考试中收集数据 。此外,C-EVAL中的大多 数样本来自互联网上的PDF或Microsoft Word文档,而不是直接来自纯文本或结构化问题。 这些文件随后被作者解析并仔细注释,以获得最终的结构化格式,这个过程往往涉及到某 些题目的复杂的 LATEX方程式转换。这进一步减少了数据污染的风险。
3 数据收集
- 科目选择 :C-EVAL涵盖四个难度级别:初中、高中、大学和专业。除了英语科目外,包含了初中、高中的标准科目。对于大学,从中国教育部列出的所有13个官方本科专业类别中选择了25个有代表性的科目、每个类别中至少有一个科目被纳入C-EVAL,以确保全面性。在专业层面上,参考了中国官方的国家职业资格目录5并选择了12个有代表性的科目,如医生、法律专业和公务员资格考试。还将这些科目按其主题分为四类:STEM(科学、技术、工程和数学)、社会科学、人文学科和其他领域。所有52个科目及其指定的类别如图1所示。
- 数据来源 :主要来源是互联网上免费提供的模拟考试。一部分大学阶段 的试题是来自中国顶尖大学的过去的考试题,由学生公开分享。一小部分大学试题是全国 研究生入学考试的模拟试题,来源是维普网站。这些问题不能免费向公众提供,本文已经获得了他们的授权,将大约2000个这样的问题纳入C-EVAL。
- 数据处理 :收集到的数据有多种格式,主要是PDF或Microsoft Word文档,还有一小部分是 网页。PDF文件最初是用OCR工具处理成文本。所有的问题随后被解析--在可能的情况下自 动解析,否则由作者手动解析--变成结构化格式。
对于具有复杂数学符号的科目,如STEM类别中的许多科目,手动将其转换为标准的LATEX格式。C-EVAL中的所有问题都经过处理,正好包括四个选择。大部分的原始问题伴随着四个选择,还消除了少于四个选项的问题。并对有四个以上选项的问题随机放弃不正确的选择。所有的问题也都经过了标准的数据预处理管道,如重复数据删除和清理。在此之后,这些问题经过了作者的几轮人工验证,所有的LATEX符号都被确保符合要求,没有语法错误。作者为每个科目处理了至少200个问题,并在每个科目中随机地将问题分成一个开发集、一个验证集和一个测试集。每个科目的开发组由五个示例组成,以方便进行少量的评估。这些示范题还附有解释,以便于进行少量的评估。验证集和测试集的比例为1:9.
- 解释数据的生成 :将自动生成和人工注释结合起来,为开发部分产生高质量的解释数据。具体来说,作者首先提示GPT-4生成一步一步的解释,以解释正确的答案,然后作者手动修改生成的解释以获得最终解释。
Part4 实验
4 设置
使用5-shot进行评估。也就是提供5个实例样本:
在仅有答案的情况下进行少量评价的一个例子。红色的文字是来自模型的自动完成的反应,而前面的文字是输入的提示。在相应的中文文本下面注明了英文翻译。
在思维链场景中,有一个少量评价的例子。红色的文字是来自模型的自动完成的反应,而前面的文字是输入的提示。在相应的中文文本下面注明了英文翻译。
对于某些主题,5-shot可能会超过某些LLM的最大上下文长度。在这种情况下,要动态地减少示例的数量。
5 评估的模型
-
ChatGPT和GPT-4
是GPT系列模型,使用从人类反馈中强化学习的方法,增强了其遵循人类指令的能力,使其更有帮助、无害和诚实。GPT-4还支持图像输入,并经过精心设计的训练后对齐过程,以及比大多数现有模型具有更大的规模。GPT-4在各种基准上实现了人类水平的表现,甚至在一些模拟考试中获得了前10%的分数。
-
Claude
是最新的Anthropic-series LLM,它也专注于人类意图的对齐。采用constitutional AI approach(Bai et al., 2022),Claude设法做到既能帮助别人又值得信赖。Claude-instant是Claude中成27本较低、推理速度较快的轻量级Vesrion。
-
BLOOMZ-mt
(Muennighoff等人,2022)是通过将多任务提示微调与预训练的多语言BLOOM模型(Scao等人,2022)相结合而创建的,不仅使用英语提示,还使用机器翻译的提示来匹配多语言任务的语言,并且被认为能够进行任务和语言无关的泛化。作者在实验中评估了176B版本。
-
LLaMA
(Touvron等人,2023)是一个Transformer架构的LLM,它是在几个开放资源的混合体上训练的。LLaMA对以前的LLM所使用的vanilla Transformers进行了一些改进,并对其进行了优化,以提高训练效率,LLaMA显示了强大的语言能力,并能超越参数比LLaMA大10倍的模型。作者在实验中评估了LLaMA-65B版本。
-
MiniMax
是一个基于Transformer结构的新一代中文LLM,使用"用户在循 环"机制, MiniMax根据用户的反馈迭代更新其基础模型。作者在实验中评估了聊天版本。
-
GLM-130B和ChatGLM-6B
是基于通用语言模型(GLM)的结构,从其双向注意力的优势中获得好处。通过使用可改变的空白数量和长度,GLM可以适应各种任务。GLM-130B是一个双语预训练的GLM,它利用了自我监督学习和多任务指令预训练。GLM-130B还实现了INT4量化,几乎没有质量下降,大大加快了推理效率。ChatGLM-6B是GLM系列的一个轻量级对话版本,专门针对中文语境进行了优化。ChatGLM-6B还应用了量化技术,因此它可以在消费级图形内存要求低至6GB的情况下部署。作者在实验中对这两个模型的fp16设置进行了评估。
-
Chinese-LLaMA
是对原LLaMA在中文环境中的改编。Chinese-LLaMA在原LLaMA的基础上增加了2万个中文词汇,并在中文数据上进行了二次预训练和指令微调。作者在实验中评估了Chines-LLaMA-13B,这是最大的Chines-LLaMA变体。
-
Chinese-Alpaca
是基于Chinese-LLaMA检查点,在中文指令调优数据的基础上进一步调优。作者在实验中评估了Chinese-Alpaca-13B,这是最大的Chinese-Alpaca变体。
-
MOSS
:MOSS是第一个在训练规模和对齐技术上都与ChatGPT相匹配的开源中文LLM。 MOSS以CodeGen(Nijkamp et al., 2022)为初始化,在100B中文标记和200B英文标记上进行了预训练,并进一步集成了监督微调和偏好模型,以及插件增强功能,但并非所有版本都公开 。作者在实验中评估的是moss-moon-003-sft版本。
6 结果
低于50B参数规模的模型只能取得比随机基线少10分的改进 ,显示出与大型模型的明显性能差距。这与最近的断言相矛盾,即10B规模的指令调整模型可以实现与ChatGPT相当的性能(Taori等人,2023;Chiang等人,2023)--作者认为,虽然这些模型在较简单的任务上可能表现良好,但在面对更复杂的场景时,其固有的高级能力明显落后。
COT提示不一定能改善C-EVAL中许多科目的结果。其主要原因有两个方面:
- C-EVAL中的许多科目都不是推理密集型的,额外的推理步骤可能会损害性能。
- 一些模型未能利用COT提示的好处,特别是那些没有经过COT包容的指令调整的模型。
MiniMax是评估中表现最好的面向中文的模型 。虽然MiniMax在表3中平均表现比ChatGPT差5.4分,但它在人文类科目上胜过ChatGPT--表8中的表现分类显示,MiniMax在注重中国知识的科目上明显胜过ChatGPT,如毛泽东思想(73.5%对60.7%)、艺术研究(65.4%对49.7%)、中国语言文学(59.3%对50.2%)和中国现代史(70.1%对62.8%)。这反映了像ChatGPT这样以英语为导向的模型在应用于中国语境时的局限性,突出了以中文为导向的模型可能占据优势的情况。这一观察结果也意味着,将中文数据纳入预训练阶段,对于这些模型在中文语境中有效运作并迎合中国用户的需求来说,确实至关重要。此外,作者观察到MiniMax和 ChatGPT在STEM类别中存在12.3分的显著差异,这表明MiniMax和ChatGPT之间的差距并不 像它在总体平均水平上看起来那样小。相反,当任务越来越复杂,需要高级推理能力时, 它们之间的差距就会扩大。
C-EVAL HARD的结果 :表5显示了C-EVAL HARD的平均精度。GPT-4只能达到54.9%的准确率 ,暗示了C-EVAL HARD的难度。有趣的是,在这些极富挑战性的题目上,思维链的提示稍 微提高了GPT-4的准确性。MiniMax在排行榜上的排名下降幅度最大--虽然它在C-EVAL上 只落后ChatGPT 5.4分,但在C-EVAL HARD上的表现却恶化到几乎是随机的准确度、滞后于ChatGPT 14.1分。事实上,只有GPT-4、ChatGPT和Claude的变体能够取得有意义的 进步--比随机基线至少提高10分。作者的结果进一步证实,当任务变得足够复杂时,LLM之间的一些关键区别就会出现。作者强调了在这种具有挑战性的环境中评估LLM的重要性, 因为目前的LLM发展已经超越了创建一个休闲的聊天机器人--它涉及到能够与各种数据类型互动、接收反馈、推理和使用工具、甚至执行行动的复杂系统或代理的发展(Mialon等 人,2023)。
8显示了四个有代表性的模型的每个主题的准确度的详细分类。