本文主要介绍阿里云百炼平台引入上架的三方开源大语言模型基本信息,计费情况等调用必备基础信息。
三方开源大模型API调用需申请后开通体验,请点击“立即申请”,申请通过后才能调用。
模型服务
模型名称
模型描述
特征
Llama2大语言模型
llama2-7b-chat-v2
来自Meta开发并公开发布的大型语言模型(LLMs)。
该系列模型提供了多种参数大小(7B、13B和70B等)的版本,并同时提供了预训练和针对对话场景的微调版本。 Llama 2系列使用了2T token进行训练,相比于LLama多出40%,上下文长度从LLama的2048升级到4096,可以理解更长的文本, 在多个公开基准测试上超过了已有的开源模型。 采用了高质量的数据进行微调和基于人工反馈的强化学习训练,具有较高的可靠性和安全性。
阿里云百炼提供的llama2-7b-chat-v2和llama2-13b-chat-v2,分别为7B和13B规模的LLaMa2模型,针对对话场景微调优化后的版本。
llama2-13b-chat-v2
百川模型1
baichuan2-7b-chat-v1
由百川智能开发的一个开源的大规模预训练模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。
支持prompt格式输入
百川模型2-7B对话版
百川模型2-7B对话版/百川模型2-13B对话版,支持message和prompt格式输入
百川模型2-13B对话版
baichuan2-13b-chat-v1
MOSS开源对话语言模型
moss-moon-003-sft
MOSS-MOON-003-SFT模型是复旦大学出品的大规模语言模型,它在灵积平台上的模型名称为"moss-moon-003-sft-v1"。MOSS是一个支持中英双语和多种插件的开源对话语言模型,MOSS-MOON系列模型具有160亿参数,在FP16精度下可在单张A100/A800或两张3090显卡运行,在INT4/8精度下可在单张3090显卡运行。MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。
支持中英双语和多种插件的开源对话语言模型
moss-moon-003-base
ChatGLM2开源双语对话语言模型
chatglm-6b-v2
ChatGLM2是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B引入了如下新特性:
更强大的性能:基于 ChatGLM 初代模型的开发经验,全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练, 评测结果 显示,相比于初代模型,ChatGLM2-6B 在 MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。
更长的上下文:基于 FlashAttention 技术,将基座模型的上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练,允许更多轮次的对话。但当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限,会在后续迭代升级中着重进行优化。
更高效的推理:基于 Multi-Query Attention 技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。
该模型为ChatGLM2系列,仅支持prompt格式输入。
ChatGLM3开源双语对话语言模型
chatglm3-6b
ChatGLM3是ChatGLM 系列最新一代的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:
更强大的基础模型:ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在 10B 以下的预训练模型中最强的性能。
更完整的功能支持:ChatGLM3-6B 采用了全新设计的 Prompt 格式 ,除正常的多轮对话外。同时原生支持 工具调用 (Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。
更全面的开源序列:除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM-6B-Base、长文本对话模型 ChatGLM3-6B-32K。
该模型为ChatGLM3系列,支持输入输出token合计是7500,其中单轮最大输出token为1500,单轮最大输入token为6000(如果超过该阈值按最后一次完整的对话进行截断),支持message和prompt格式输入,支持流式调用。
姜子牙通用大模型
ziya-llama-13b-v1
由IDEA研究院出品的大规模语言模型,它在灵积平台上的模型名称为"ziya-llama-13b-v1"。Ziya-LLaMA大模型V1是基于LLaMa的130亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。目前Ziya-LLaMA通用大模型已完成大规模预训练、多任务有监督微调和人类反馈学习三阶段的训练过程。
姜子牙通用大模型V1是大规模预训练语言模型,支持中文英文等不同语言输入。
Dolly开源大语言模型
dolly-12b-v2
由Databricks出品的大规模语言模型,它在灵积平台上的模型名称为"dolly-12b-v2"。该模型是在pythia-12b的基础上,使用databricks-dolly-15k数据集微调得到的。数据集包括头脑风暴、分类、生成、问答、信息抽取等任务的语料。更多信息可以参考 Dolly的开源repo 。
Dolly超大规模语言模型,支持多语言输入,V2版本是Databricks在pythia-12b的基础上微调得到的12B参数规模大模型。
BELLE开源中文对话大模型
belle-llama-13b-2m-v1
由BELLE出品的大规模语言模型,它在灵积平台上的模型名称为"belle-llama-13b-2m-v1"。BELLE(BE Large Language Model Engine),一款基于BLOOM和LLAMA针对中文优化、模型调优切仅使用由ChatGPT生成的数据,为中文指令提供更好的支持。
BELLE中文对话大规模语言模型,支持中文英文等不同语言输入。
元语功能型对话大模型V2
chatyuan-large-v2
是由元语智能出品的大规模语言模型,它在灵积平台上的模型名称为"chatyuan-large-v2"。ChatYuan-large-v2是一个支持中英双语的功能型对话语言大模型,是继ChatYuan系列中ChatYuan-large-v1开源后的又一个开源模型。ChatYuan-large-v2使用了和 v1版本相同的技术方案,在微调数据、人类反馈强化学习、思维链等方面进行了优化。
BiLLa开源推理能力增强模型
billa-7b-sft-v1
开源的推理能力增强的中英双语 LLaMA 模型. 模型的主要特点:
较大提升 LLaMA 的中文理解能力, 并尽可能减少对原始 LLaMA 英文能力的损伤;
训练过程增加较多的任务型数据, 利用 ChatGPT 生成解析, 强化模型理解任务求解逻辑;
全量参数更新, 追求更好的生成效果。
较大提升 LLaMA 的中文理解能力, 并尽可能减少对原始 LLaMA 英文能力的损伤。
计费单价
基础限流
限时免费中
以下条件任何一个超出都会触发限流:
调用频次 ≤ 60 QPM,每分钟不超过60次API调用;
Token消耗 ≤ 100,000 TPM,每分钟消耗的Token数目不超过100,000。
baichuan-7b-v1
流量 ≤ 60 QPM,每分钟处理不超过60个完整的请求;
0.006元/1,000 tokens
0.008元/1,000 tokens
/
流量 ≤ 120 QPM,每分钟处理不超过120个完整的请求;
Token消耗 ≤ 200,000 TPM,每分钟消耗的Token数目不超过200,000。
dolly-12b-v2Dolly
流量 ≤ 10 QPM,每分钟处理不超过10个完整的请求;
Token消耗 ≤ 2,500 TPM,每分钟消耗的Token数目不超过2,500。
如果您熟悉编程语言,推荐您使用SDK或API调用通义千问模型,实现灵活定制和开发。SDK或API调用请参考 开发指南 。