现在为什么那么多人以清华大学的ChatGLM-6B为基座进行试验?
10 个回答
我认为简而言之,就是三点:
第一,中文支持好。虽然现在支持中文的LLM已经不少,但是6B对中文的支持在各类测评中的表现是最出色的。毕竟要做中文NLP或VL应用,有一个“懂中文”的基础模型是十分重要的;
第二,模型规模小。62亿的参数量,稍微像点样的显卡都能凑合着跑起来,这对小机构或个人来说十分具有吸引力;
第四,学习资料多。Git资源很丰富,能够比较快的上手,而且社区也是相当的活跃。

随着ChatGPT迅速出圈,最近几个月开源的大模型也是遍地开花。目前,开源的大语言模型主要有三大类:ChatGLM衍生的大模型(wenda、 ChatSQL 等)、LLaMA衍生的大模型(Alpaca、Vicuna、BELLE、Phoenix、Chimera等)、Bloom衍生的大模型(Bloomz、BELLE、Phoenix等)。其中,ChatGLM-6B主要以中英双语进行训练,LLaMA主要以英语为主要语言的拉丁语系进行训练,而Bloom使用了46种自然语言、13种编程语言进行训练。
模型 | 训练数据量 | 模型参数 | 训练数据范围 | 词表大小 | 分词算法 | 分词器(Tokenizer)后端 |
---|---|---|---|---|---|---|
LLaMA | 1T~1.4T tokens(其中,7B/13B使用1T,33B/65B使用1.4T) | 7B~65B | 以英语为主要语言的拉丁语系 | 32000 | BBPE | 基于SentencePiece工具实现 |
ChatGLM-6B | 约 1T tokens | 6B | 中英双语 | 130528 | BBPE | 基于SentencePiece工具实现 |
Bloom | 1.6TB预处理文本,转换为 350B 唯一 tokens | 300M~176B | 46种自然语言,13种编程语言 | 250680 | BBPE | HuggingFace 的 tokenizers (类SentencePiece) |
个人觉得,ChatGLM-6B相对于LLaMA-7B、BLOOMZ-7B1来说,具有如下优势:
- 裸测中文效果最好(注意:裸测效果最好不代表在指定任务上进行微调后效果也最佳)。
- 模型参数量更小(62亿),理论上,占用的GPU显存更小和模型推理性能更好。
- 词表基于中英双语构建,更聚焦。
- 即便是LLaMA表现出了极大地跨语言能力,但是碍于LLaMA词表中的中文Token较少,它的解码效率相对ChatGLM-6B、BLOOMZ-7B1来说,更低;
- 而BLOOMZ-7B1词表更大,有很多与中文无关的Token,在训练模型时,词表权重将会消耗非常大的显存,降低训练速度,产生OOM的现象。
- 国内开发,具有本土优势。