LLMs之BELLE：BELLE(一款能够帮到每一个人的中文大型语言模型引擎)的简介、使用方法、案例应用之详细攻略_一个处女座的程序猿的博客

BELLE的简介

1、BELLE(一款能够帮到每一个人的中文大型语言模型引擎)的概述

地址

GitHub地址： https://github.com/LianjiaTech/BELLE

论文地址：

《Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation》

《A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model》

时间

时间：2023年4月

作者

BELLE Group

2、近期更新内容

[2023/05/14] 开放 BELLE-LLaMA-EXT-13B ，在LLaMA-13B的基础上扩展中文词表，并在400万高质量的对话数据上进行训练。
[2023/05/11] BELLE/data/10M 中，新加350万条生成多样化指令任务数据，包括单轮和多轮对话 train_3.5M_CN 。
[2023/04/19] 开放了其中一篇论文中的的相关模型：包括在LLaMA7B基础上增量预训练扩展中文词表的模（详见 BelleGroup/BELLE-LLaMA-EXT-7B ），以及基于多样化开源数据训练后的LLaMA-7B模型（详见 BelleGroup/BELLE-on-Open-Datasets ）。
[2023/04/18] 更新了train代码，详见 BELLE/train ，集成了Deepspeed-Chat，提供了相关的docker
[2023/04/18] 更新了两篇最新论文工作，对比了不同方式产生的训练数据、不同训练方法（LoRA, finetune)对效果的影响
[2023/04/12] 发布了 ChatBELLE App ，基于 llama.cpp 和 Flutter ，实现跨平台的BELLE-7B离线模型实时交互。
[2023/04/11] 更新了一个人工精校的eval集合，大约一千多条
[2023/04/08] BELLE/data/10M 中，新加40万条生成的给定角色的多轮对话 Generated Chat ，新加200万条生成多样化指令任务数据 train_2M_CN 。

3、相关论文

《Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation朝着更好的中文指令模仿语言模型：探究训练数据与评估的影响》的翻译与解读

地址	论文地址： https://arxiv.org/abs/2304.07854
时间	时间：2023年4月16日

Recently, significant public efforts have been directed towards developing low-cost models with capabilities akin to ChatGPT, thereby fostering the growth of open-source conversational models. However, there remains a scarcity of comprehensive and in-depth evaluations of these models' performance. In this study, we examine the influence of training data factors, including quantity, quality, and linguistic distribution, on model performance. Our analysis is grounded in several publicly accessible, high-quality instruction datasets, as well as our own Chinese multi-turn conversations. We assess various models using a evaluation set of 1,000 samples, encompassing nine real-world scenarios. Our goal is to supplement manual evaluations with quantitative analyses, offering valuable insights for the continued advancement of open-source chat models. Furthermore, to enhance the performance and training and inference efficiency of models in the Chinese domain, we extend the vocabulary of LLaMA - the model with the closest open-source performance to proprietary language models like GPT-3 - and conduct secondary pre-training on 3.4B Chinese words. We make our model, data, as well as code publicly available.

最近，公众已经付出了大量努力，开发具有ChatGPT类似能力的低成本模型，从而促进了开源对话模型的发展。然而，这些模型性能的全面深入评估仍然很少。在本研究中，我们考察了训练数据因素（包括数量、质量和语言分布）对模型性能的影响。我们的分析基于几个公开可获取的高质量指令数据集，以及我们自己的中文多轮对话数据。我们使用一个包含9个真实场景的评估集对各种模型进行评估，该集合包含1000个样本。我们的目标是通过定量分析来补充手动评估，为开源对话模型的持续进展提供有价值的见解。此外，为了增强模型在中文领域的性能、训练和推理效率，我们扩展了LLaMA的词汇量（LLaMA是与GPT-3等专有语言模型最接近的开源模型），并在 34亿中文词汇上进行了辅助预训练。我们将我们的模型、数据和代码公开提供。

In conclusion, this study addresses the grow-ing need for comprehensive evaluations of open-source conversational models by investigating the influence of various training data factors, such as quantity, quality, and linguistic distribution. By utilizing publicly accessible high-quality in-struction datasets and Chinese multi-turn conver-sations, we assess different models on a evaluation set of 1,000 samples across nine real-world scenar-ios. We also conclude several challenges of build-ing a comprehensive evaluation dataset and argue the necessity of prioritizing the development of such evaluation set. Moreover, this study extends the vocabulary of LLaMA and conducts secondary pre-training with 3.4B Chinese words to enhance its performance and efficiency in the Chinese do-main. This results in a 60% reduction in train-ing and inference time without sacrificing perfor-mance. By making the model, data, and code pub-licly available, this research contributes to the on-going efforts of the open-source community to de-velop more accessible and efficient conversational models especially for Chinese.

总之，本研究通过研究训练数据的数量、质量和语言分布等各种因素对开源对话模型进行全面评估，以满足日益增长的这方面需求。我们利用公开可获取的高质量指令数据集和中文多轮对话数据，在包含9个真实场景的1000个样本的评估集上评估了不同的模型。我们还总结了构建全面评估数据集的几个挑战，并提出了优先发展这种评估集的必要性。此外，本研究扩展了LLaMA的词汇量，并在34亿中文词汇上进行了辅助预训练，以提高其在中文领域的性能和效率。这使得训练和推理时间减少了60% ，而不会牺牲性能。通过公开提供模型、数据和代码，这项研究为开源社区不断努力开发更易于访问和高效的对话模型，特别是针对中文，做出了贡献。

为了推动开源大语言模型的发展，大家投入了大量精力开发能够类似于ChatGPT的低成本模型。首先，为了提高模型在中文领域的性能和训练/推理效率，我们进一步扩展了LLaMA的词汇表，并在 34亿个中文词汇上进行了二次预训练。
此外，目前可以看到基于ChatGPT产生的指令训练数据方式有：
>>  1）参考Alpaca基于GPT3.5得到的self-instruct数据；
>>  2）参考Alpaca基于GPT4得到的self-instruct数据；
>>  3）用户使用ChatGPT分享的数据ShareGPT。
在这里，我们着眼于探究训练数据类别对模型性能的影响。具体而言，我们考察了训练数据的数量、质量和语言分布等因素，以及我们自己采集的中文多轮对话数据，以及一些公开可访问的高质量指导数据集。
为了更好的评估效果，我们使用了一个包含一千个样本和九个真实场景的评估集来测试各种模型，同时通过量化分析来提供有价值的见解，以便更好地促进开源聊天模型的发展。
这项研究的目标是填补开源聊天模型综合评估的空白，以便为这一领域的持续进步提供有力支持。
实验结果如下：

Factor	Base model	Training data	Score_w/o_others
词表扩充	LLaMA-7B-EXT	zh(alpaca-3.5&4) + sharegpt	0.670
词表扩充	LLaMA-7B	zh(alpaca-3.5&4) + sharegpt	0.652
数据质量	LLaMA-7B-EXT	zh(alpaca-3.5)	0.642
数据质量	LLaMA-7B-EXT	zh(alpaca-4)	0.693
数据语言分布	LLaMA-7B-EXT	zh(alpaca-3.5&4)	0.679
	LLaMA-7B-EXT	en(alpaca-3.5&4)	0.659
	LLaMA-7B-EXT	zh(alpaca-3.5&4) + sharegpt	0.670
	LLaMA-7B-EXT	en(alpaca-3.5&4) + sharegpt	0.668
数据规模	LLaMA-7B-EXT	zh(alpaca-3.5&4) + sharegpt	0.670
数据规模	LLaMA-7B-EXT	zh(alpaca-3.5&4) + sharegpt + BELLE-0.5M-CLEAN	0.762
-	ChatGPT	-	0.824

其中 BELLE-0.5M-CLEAN 是从230万指令数据中清洗得到0.5M数据，其中包含单轮和多轮对话数据，和之前开放的0.5M数据不是同一批数据。

需要强调指出的是 ：通过案例分析，我们发现我们的评估集在全面性方面存在局限性，这导致了模型分数的改善与实际用户体验之间的不一致。构建一个高质量的评估集是一个巨大的挑战，因为它需要在保持平衡难易程度的同时，包含尽可能多样的使用场景。如果评估样本主要都过于困难，那么所有模型的表现将会很差，使得辨别各种训练策略的效果变得具有挑战性。相反，如果评估样本都相对容易，评估将失去其比较价值。此外，必须确保评估数据与训练数据保持独立。基于这些观察，我们谨慎地提醒不要假设模型仅通过在有限数量的测试样本上获得良好结果就已经达到了与ChatGPT相当的性能水平。我们认为，优先发展全面评估集具有重要意义。

《A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model中文指令模仿大语言模型全参调优与LoRA调优对比研究》的翻译与解读

地址	论文地址： https://arxiv.org/abs/2304.08109
时间	时间：2023年4月17日

Recently, the instruction-tuning of large language models is a crucial area of research in the field of natural language processing. Due to resource and cost limitations, several researchers have employed parameter-efficient tuning techniques, such as LoRA, for instruction tuning, and have obtained encouraging results In comparison to full-parameter fine-tuning, LoRA-based tuning demonstrates salient benefits in terms of training costs. In this study, we undertook experimental comparisons between full-parameter fine-tuning and LoRA-based tuning methods, utilizing LLaMA as the base model. The experimental results show that the selection of the foundational model, training dataset scale, learnable parameter quantity, and model training cost are all important factors. We hope that the experimental conclusions of this paper can provide inspiration for training large language models, especially in the field of Chinese, and help researchers find a better trade-off strategy between training cost and model performance. To facilitate the reproduction of the paper's results, the dataset, model and code will be released.

最近，在自然语言处理领域，对大型语言模型进行指令微调是一项重要的研究领域。由于资源和成本的限制，一些研究人员采用了参数高效的微调技术，如 LoRA ，进行指令微调，并取得了令人鼓舞的结果。与全参数微调相比，LoRA-based微调在训练成本方面表现出明显的优势。在本研究中，我们使用LLaMA作为基础模型，对全参数微调和LoRA-based微调方法进行了实验比较。实验结果显示，基础模型的选择、训练数据集规模、可学习参数数量和模型训练成本都是重要因素。我们希望本文的实验结论能够为训练大型语言模型，特别是在中文领域，提供启示，并帮助研究人员找到更好的训练成本和模型性能之间的权衡策略。为了便于复现本文的结果，数据集、模型和代码将被发布。

In this article, we conducted an experimental com-parison between full-parameter fine-tuning and LoRA-based tuning methods using LLaMA as the base model. We also explored the impact of differ-ent amounts of training data and model parameters on the effectiveness of LoRA-based tuning. From the experimental results comparison, some inter-esting ideas can observed:

(1)、The choice of the base model has a signif-icant impact on the effectiveness of LoRA-based tuning. Comparing LLaMA-7B+LoRA(0.6M) and LLaMA-7B+FT(0.6M), as well as LLaMA- 7B+LoRA(2M) and LLaMA-7B+FT(2M), it is evident that LoRA-based tuning on a base model that has not undergone instruction tun-ing has limited effectiveness and is far less ef-fective than full-parameter fine-tuning (averag-ing 10 points lower). However, by compar-ing LLaMA-7B+FT(2M)+FT(math_0.25M) and LLaMA-7B+FT(2M)+LoRA(math_0.25M), it can be seen that LoRA-based tuning on a model that has undergone instruction tuning can achieve com-parable results to fine-tuning. This indicates that the choice of the base model is crucial to the ef-fectiveness of the LoRA-based tuning method.

(2)、Increasing the amount of training data can continuously improve the model’s effectiveness. Comparing LLaMA-7B+LoRA(0.6M), LLaMA- 7B+LoRA(2M), and LLaMA-7B+LoRA(4M) shows that as the amount of training data in-creases, the model’s effectiveness improves (an average of approximately 2 points improvement for every doubling of data).

(3)、LoRA-based tuning benefits from the number of model parameters. Comparing LLaMA- 7B+LoRA(4M) and LLaMA-13B+LoRA(2M) shows that the number of model parameters has a greater impact on the effectiveness of LoRA-based tuning than the amount of training data.

在本文中，我们使用LLaMA作为基础模型，进行了全参数微调和 LoRA-based微调方法的实验比较。我们还探讨了不同数量的训练数据和模型参数对LoRA-based微调效果的影响。通过实验结果比较，我们得出了一些有趣的观点：

(1)、基础模型的选择 对LoRA-based微调的效果有显著影响。比较LLaMA-7B+LoRA(0.6M)和LLaMA-7B+FT(0.6M)，以及LLaMA-7B+LoRA(2M)和LLaMA-7B+FT(2M)，可以明显看出，在未经过指令微调的基础模型上进行LoRA-based微调的效果有限，远不如全参数微调（平均低10个点）。然而，通过比较LLaMA-7B+FT(2M)+FT(math_0.25M)和LLaMA-7B+FT(2M)+LoRA(math_0.25M)，可以看出，在经过 指令微调 的模型上进行 LoRA-based微调 可以达到与 全参数微调相当 的结果。这表明基础模型的选择对LoRA-based微调方法的有效性至关重要。

(2)、增加训练数据量可以不断提高模型的效果 。比较LLaMA-7B+LoRA(0.6M)，LLaMA-7B+LoRA(2M)和LLaMA-7B+LoRA(4M)可以发现，随着训练数据量的增加，模型的效果也在改善（每倍数据增加平均约2个点）。

(3)、LoRA-based微调受益于模型参数的数量 。比较LLaMA-7B+LoRA(4M)和LLaMA-13B+LoRA(2M)可以看出，模型参数的数量对LoRA-based微调的有效性影响更大，而不是训练数据量。

为了实现对大语言模型的指令调优，受限于资源和成本，许多研究者开始使用参数高效的调优技术，例如LoRA，来进行指令调优，这也取得了一些令人鼓舞的成果。相较于全参数微调，基于 LoRA的调优在训练成本方面展现出明显的优势。在这个研究报告中，我们选用LLaMA作为基础模型，对全参数微调和基于LoRA的调优方法进行了实验性的比较。
实验结果揭示，选择合适的基础模型、训练数据集的规模、可学习参数的数量以及模型训练成本均为重要因素。
我们希望本文的实验结论能对大型语言模型的训练提供有益的启示，特别是在中文领域，协助研究者在训练成本与模型性能之间找到更佳的权衡策略。实验结果如下：

Model	Average Score	Additional Param.	Training Time (Hour/epoch)
LLaMA-13B + LoRA(2M)	0.648	28M	8
LLaMA-7B + LoRA(4M)	0.624	17.9M	11
LLaMA-7B + LoRA(2M)	0.609	17.9M	7
LLaMA-7B + LoRA(0.6M)	0.589	17.9M	5
LLaMA-7B + FT(2M)	0.710	-	31
LLaMA-7B + LoRA(4M)	0.686	-	17
LLaMA-7B + FT(2M) + LoRA(math_0.25M)	0.729	17.9M	3
LLaMA-7B + FT(2M) + FT(math_0.25M)	0.738	-	6

其中的score是基于本项目集目前开放的1000条评估集合得到。
其中LLaMA-13B + LoRA(2M) 代表了一个使用L LaMA-13B作为基础模型和 LoRA训练方法，在2M指令数据上进行训练的模型。而LLaMA-7B + FT(2M) 代表了一个使用全参数微调进行训练的模型。

LLaMA-7B + FT(2M) + LoRA(math_0.25M) 代表了一个在0.25M数学指令数据上，以LLaMA-7B + FT(2M)作为基础模型并使用LoRA训练方法进行训练的模型。LLaMA-7B + FT(2M) + FT(math_0.25M) 代表了一个使用增量全参数微调进行训练的模型。关于训练时间，所有这些实验都是在 8块 NVIDIA A100-40GB GPU上进行的。
其中的math_0.25M是开放的0.25M数学数据库。在实验过程中，根据我们的评估（详见论文），我们的模型在数学任务上表现不佳，得分大多低于0.5。为了验证 LoRA 在特定任务上的适应能力，我们使用增量0.25M数学数据集（math_0.25M）来调整指令遵循的大型语言模型（我们选择LLaMA-7B+FT（2M）作为基础模型）。作为对比，我们使用了学习速率为5e-7的增量微调方法，并进行了2个时期的训练。因此，我们得到了两个模型，一个是LLaMA-7B+FT（2M）+LoRA（math_0.25M），另一个是LLaMA-7B+FT（2M）+FT（math_0.25M）。从实验结果可以看出，增量微调仍然表现更好，但需要更长的训练时间。LoRA和增量微调都提高了模型的整体性能。从附录中的详细数据可以看出，LoRA和增量微调都在数学任务中显示出显著的改进，而只会导致其他任务的轻微性能下降。具体而言，数学任务的表现分别提高到了0.586和0.559。
可以看到：
>>  1) 选择基础模型对于 LoRA 调整的有效性具有显著影响；
>>  2）增加训练数据量可以持续提高LoRA模型的有效性；
>>  3）LoRA 调整受益于模型参数的数量。
对于LoRA方案的使用，我们建议可以在已经完成了指令学习的模型的基础上针对特定任务做loRA的自适应训练。
同样地，该论文中的相关模型也会尽快开放在本项目中。

LLMs之BELLE：BELLE(一款能够帮到每一个人的中文大型语言模型引擎)的简介、使用方法、案例应用之详细攻略目录BELLE的简介BELLE的使用方法BELLE的简介1、BELLE(一款能够帮到每一个人的中文大型语言模型引擎)的概述地址GitHub地址：https://github.com/LianjiaTech/BELLE论文地址：《Towards Better Instruction Following Language Models for

在预训练或适应性调整之后，使用 LLMs 的一个主要方法是为解决各种任务设计合适的 prompt 策略。一个典型的 prompt 方法是上下文学习（in-context learning），它以自然语言文本的形式制定了任务描述或演示。此外，思维链 prompting 方法可以通过将一系列中间推理步骤纳入 prompt 中来加强上下文学习。在第六节中，研究者详细介绍了这两种技术的细节。作为一种特殊的 prompt 形式，上下文学习（ICL）是 GPT-3 首次提出的，它已经成为利用 LLMs 的一种典型方法。思维链 prompt 思维链（CoT）是一种改进的 prompt 策略，可以提高 LLM 在复杂推理任务中的表现，如算术推理、常识推理和符号推理。CoT 不是像 ICL 那样简单地用输入 - 输出对来构建 prompt，而是将能够导致最终输出的中间推理步骤纳入 prompt。在第 6.2 节中，研究者详细说明了 CoT 与 ICL 的用法，并讨论 CoT 何时有效以及为何有效。为了研究 LLMs 的有效性和优越性，研究者利用了大量的任务和基准来进行实证评估和分析

人工智能（Artificial Intelligence, AI）最近取得了巨大的进展，特别是大语言模型（Large Language Models, LLMs ），比如最近火爆全网的ChatGPT和GPT-4。GPT 模型在各项 自然语言处理 任务上有着惊人的效果。至于具体有多强，这里就不再赘述了。做了这么多年AI研究好久没这么激动过了。没试过的朋友赶紧试一下！正所谓「大力出奇迹」，把参数量调「大」能提高模型性能已经成为了大家的普遍共识。但是仅仅增加模型参数就够了吗？仔细阅读GPT的一系列论文后就会发现，仅仅增加模型参数是不够的。它们的成功在很大程度上还归功于用于训练它们的大量和高质量的数据。在本文中，我们将从数据为中心的人工智能视角去分析一系列GPT 模型（之后会用Data-centric AI以避免啰嗦）。Data-centric AI大体上可以分文三个目标：训练数据开发（training data development）、推理数据开发（inference data development）和数据维护（data maintenance）。什么是大语言模型？什么又是GPT 模型？

Dify 是一个易用的 LLMOps 平台，旨在让更多人可以创建可持续运营的原生 AI 应用。Dify 提供多种类型应用的可视化编排，应用可开箱即用，也能以“后端即服务”的 API 提供服务。通过 Dify 创建的应用包含了：开箱即用的的 Web 站点，支持表单模式和聊天对话模式一套 API 即可包含插件、上下文增强等能力，替你省下了后端代码的编写工作；可视化的对应用进行数据分析，查阅日志或进行标注；Dify 兼容 Langchain，这意味着我们将逐步支持多种 LLMs

大模型指令微调水平在不断地提高，这次微软用上了 GPT-4。我们知道，从谷歌 T5 模型到 OpenAI GPT 系列大模型，大语言模型（ LLMs ）已经展现出了令人印象深刻的泛化能力，比如上下文学习和思维链推理。同时为了使得 LLMs 遵循自然语言指令和完成真实世界任务，研究人员一直在探索 LLMs 的指令微调方法。实现方式有两种：一是使用人类标注的 prompt 和反馈在广泛任务上微调模型，二是使用通过手动或自动生成指令增强的公共基准和数据集来监督微调。在这些方法中，Self-Instruct 微调是一种简单有效的方法，它从 SOTA 指令微调的教师 LLMs 生成的指令遵循数据中学习，使得 LLMs 与人类意图对齐。事实证明，指令微调已经成为提升 LLMs 零样本和小样本泛化能力的有效手段。最近，ChatGPT 和 GPT-4 的成功为使用指令微调来改进开源 LLMs 提供了巨大的机遇。Meta LLaMA 是一系列开源 LLMs ，其性能与 GPT-3 等专有 LLMs 相媲美。为了教 LLaMA 遵循指令，Self-Instruct 因其卓越性能和低成本被快速采用。比如斯坦

对于ChatGPT技术，我们可以预见到以下几点发展趋势：模型的提升：继续提升模型的语言生成能力和知识储备，以提高生成的内容的质量和准确性。多任务学习：开展多任务学习，使模型在多种任务中具有更强的通用性和灵活性。跨语言能力：提高跨语言能力，使模型更好地理解和生成多种语言的文本。集成多模态数据：通过集成多模态数据，如图像和语音，来提高模型的语言生成能力。部署到实际应用：将ChatGPT技术部署到更多的实际应用场景中，如客服机器人、智能写作辅助等。 ChatGPT基于的工具被称为大型语言模型（Large Language Models， LLMs ），通过学习庞大的在线文本数据库中的语言统计模式来工作。基于现有的基本原理和技术，ChatGPT在未来发展进程中必然会进一步提升自身的技术水平，例如提升检索结果的质量。技术提升的方式，一是需要将海量数据，尤其是实时的新数据增加到原有的文本数据库中，对其中不实、偏见或过时的信息进行更正，并以更新的文本数据库为基础，进行进一步的模型训练，以实现技术模型和应用工具的与时俱进。

AI：大模型领域最新算法SOTA总结、人工智能领域AI工具产品集合分门别类(文本类、图片类、编程类、办公类、视频类、音频类、多模态类)的简介、使用方法(持续更新)之详细攻略 linwu-hi: 《AI：大模型领域最新算法SOTA总结、人工智能领域AI工具产品集合分门别类(文本类、图片类、编程类、办公类、视频类、音频类、多模态类)的简介、使用方法(持续更新)之详细攻略》这篇文章非常不错！！！博主写的非常好，文章干货满满，三联+关注！欢迎作者闲暇之余能回关我的博客进行指导，谢谢！成功解决Win系统下执行exe文件一闪而过的问题 YYYAK666: 哈啥，根本没用 LLMs之FlashAttention-2：《FlashAttention-2: Faster Attention with Better Parallelism and Work Partition LLMs之LLaMA-2：源码解读之所有py文件(包括example_text_completion.py/example_chat_completion.py+model.py/generation NLP：利用spacy的en_core_web_sm预训练语言模型通过对文本数据的依存分析法(主谓宾/语法树结构)实现将大量的文本数据转化为结构化数据应用案例实现代码