为了确保数据质量,开发团队将 HTML 转换回 markdown 并过滤掉一些不合适或低质量的样本。 以及将冗长的对话分成更小的部分,以适应模型的最大上下文长度。其训练方法建立在 Stanford Alpaca 的基础上,并进行了以下改进: