常见AI模型参数量-以及算力需求评估_小模型算力评估

token和byte有换算关系吗？

盘古一个token=0.75个单词，1token相当于1.5个汉字；
以中文为例：token和byte的关系
1GB=0.5G token=0.25B token；
Token 设计原则理解：英文中有些单词会根据语义拆分，如overweight会被设计为2个token，over和weight；
中文中有些汉语会根据语义被整合，如“等于”、“王者荣耀”；

大模型开源链接和大模型套件

大模型	应用方向	开源链接
悟空画画	文生图	https://github.com/mindspore-lab/minddiffusion/tree/main/vision/wukong-huahua
Taichu-GLIDE	文生图	https://github.com/mindspore-lab/minddiffusion/tree/main/vision/Taichu-GLIDE
CodeGeex	代码生成	https://github.com/THUDM/CodeGeeX
鹏城盘古	文本生成预训练	https://gitee.com/mindspore/models/tree/master/official/nlp/Pangu_alpha
紫东太初	图文音三模型	https://gitee.com/mindspore/zidongtaichu
LuojiaNet	遥感框架	https://github.com/WHULuoJiaTeam/luojianet
空天灵眸	多模态遥感（当前为10亿级别参数）	https://gitee.com/mindspore/ringmo-framework
大模型套件	套件内容	开源链接
mindformers	transformer大模型套件	https://gitee.com/mindspore/mindformers
minddiffusion	diffusion模型套件	https://github.com/mindspore-lab/minddiffusion
MindPet	微调套件	https://github.com/mindspore-lab/mindpet

4-bit Model Requirements for LLaMA

Model	Model Size	Minimum Total VRAM	Card examples	RAM/Swap to Load*
LLaMA-7B	3.5GB	6GB	RTX 1660, 2060, AMD 5700xt, RTX 3050, 3060	16 GB
LLaMA-13B	6.5GB	10GB	AMD 6900xt, RTX 2060 12GB, 3060 12GB, 3080, A2000	32 GB
LLaMA-30B	15.8GB	20GB	RTX 3080 20GB, A4500, A5000, 3090, 4090, 6000, Tesla V100	64 GB
LLaMA-65B	31.2GB	40GB	A100 40GB, 2x3090, 2x4090, A40, RTX A6000, 8000, Titan Ada	128 GB

来源：https://gist.github.com/cedrickchee/255f121a991e75d271035d8a659ae44d

昇思和业界开源大模型关于算力、训练时长

	参数	数据	训练算力	时长
鹏城盘古	100B	300B token	512P Ascend910	28天
鹏城盘古	200B	300B token	512P Ascend910	41天
紫东太初	1B	1.3亿图文对	16P Ascend910	10天
紫东太初	100B	300万图文对	128P Ascend910	30天
空天灵眸	1B	200w遥感图片（250G）	20P Ascend910	3天
空天灵眸	10B	500w遥感图片（600G）	20P Ascend910	30天
燃灯	20B	400B token（加载预训练权重）+200B token（新数据）	64P Ascend910	27天
CodeGeeX	13B	850B token	384P Ascend910	60天
盘古Sigma	1T	300B token	128P Ascend910	100天
悟空画画	1B	5000万图文对	64P Ascend910	30天
东方御风	2B	10W流场图	16P Ascend910	3天
GPT3	175B	300B token	2048卡 A100	15天
GPT3	175B	300B token	1024卡 A100	34天
ChatGPT	175B（预训练）+6B（强化）	300B token估算	2048卡 A100	15.25天
ASR	千万	178小时语音	4卡 Ascend910	15H
wav2vec2.0	3亿	3000小时语音	32卡 Ascend910	120H
hubert	3亿	1w小时语音	32卡 Ascend910	10天

不同参数量下算力需求

	模型参数量（亿）	数据量	并行卡数（如A100）	时间（天）	算力（P/天）
1	10	300 billion token	12	40	312Tx12= 3.7P ;
2	100	300 billion token	128	40	312Tx128= 40P ;
3	1000	1 trillion token	2048	60	312Tx2048= 638P ;
4

典型大模型下算力需求

	模型参数量（亿）	数据量	时间（天）	算力（P/天）	金额
盘古	2.6B	600G	3	110
盘古	13B	600G	7	110
ChatGPT	13	300 billion token	27.5	27.5	一次模型训练成本超过1200万美元
GPT-3 XL	13	300 billion token	27.5	27.5
GPT-3	1746	300 billion token	1	3640	一次模型训练成本超过460万美元
GPT-3.5			1	3640

注：ChatGPT训练所用的模型是基于13亿参数的GPT-3.5模型微调而来

来源：https://arxiv.org/abs/2005.14165

来源：https://arxiv.org/abs/2104.12369

常见小模型参数量

来源： https://github.com/Lyken17/pytorch-OpCounter

Model	Params(M)	MACs(G)
alexnet	61.10	0.77
vgg11	132.86	7.74
vgg11_bn	132.87	7.77
vgg13	133.05	11.44
vgg13_bn	133.05	11.49
vgg16	138.36	15.61
vgg16_bn	138.37	15.66
vgg19	143.67	19.77
vgg19_bn	143.68	19.83
resnet18	11.69	1.82
resnet34	21.80	3.68
resnet50	25.56	4.14
resnet101	44.55	7.87
resnet152	60.19	11.61
wide_resnet101_2	126.89	22.84
wide_resnet50_2	68.88	11.46

Model	Params(M)	MACs(G)
resnext50_32x4d	25.03	4.29
resnext101_32x8d	88.79	16.54
densenet121	7.98	2.90
densenet161	28.68	7.85
densenet169	14.15	3.44
densenet201	20.01	4.39
squeezenet1_0	1.25	0.82
squeezenet1_1	1.24	0.35
mnasnet0_5	2.22	0.14
mnasnet0_75	3.17	0.24
mnasnet1_0	4.38	0.34
mnasnet1_3	6.28	0.53
mobilenet_v2	3.50	0.33
shufflenet_v2_x0_5	1.37	0.05
shufflenet_v2_x1_0	2.28	0.15
shufflenet_v2_x1_5	3.50	0.31
shufflenet_v2_x2_0	7.39	0.60
inception_v3	27.16	5.75

推理训练算力需求分析

主要以机器视觉应用使能人工智能算力分析为课题，其中的视觉能力训练平台、图像增强模型、目标检测、图像分割、人员跟踪需求。

对人工智能算力需求计算过程如下：

参考业界流行的视频训练算法(表一、第四章)，训练一个模型需要2560TFLOPS FP16算力（8卡/周，单卡算力为320 TFLOPS FP16），运算时间为7天左右，且通常需要训练大于8~10次才能找到一个满意的模型。

考虑2天的调测，安装和模型更新时间，则一个模型的训练周一为10天。

综上，至少需占用要2560*8=20480 TFLOPS FP16算力，才能在10天内找到一个满意的训练模型；

按照目标检测，分割，跟踪等常规模型统计，预计一年有30+任务需要分别训练；总算力需求20PFLOPS FP16。

表一：业界流行的视频训练算法

序号	算法分类	算法需求	模型参考	数据量参考	所需算力 (TFLOPS FP16)	训练时间 /周	训练次数
1	视频异常检测	CLAWS		＞200G视频数据	20480	1	10
2	视频异常检测	C3D			20480	1	10
3	视频活动分析	SlowFast			20480	1	10
4	视频活动分析	AlphAction			20480	1	10
5	图像分类基础网络	ResNet系列：resnet18, resnet34, resnet50, resnet101	resnet50,	ImageNet, ~150G图片	2560	1	8
6		MobileNet系列：MobileNetV1, MobileNetV2, MobileNetV3	mobilenetv2,		2560	1	8
7	人脸识别算法	图像分类Backbone，FaceNet	FaceNet NN1,	MS-Celeb-1M LFW, 1万+张图片 Adience, 2万+张图片 Color FERET, 1万+张图片	2560	1	8
8	目标检测	一阶段：SSD，yolo系列：yolov3, yolov4, yolov5	YOLOv3-608,	COCO 2017, ＞25F数据	2560	1	8
9	二阶段：FasterRCNN	faster rcnn + resnet101,			2560	1	8
10	分割算法	yolact, yolact++（unet、unet++）	maskrcnn+resnet50 fpn,		2560	1	8
11		MaskRCNN			2560	1	8
12	人员跟踪	DensePeds		100G图片	2560	1	8
13	底层图像增强	CycleGAN等		＞10G视频数据	2560	1	8
14	维护预测算法			＞1G数据	2560	1	8
15	洗煤优化算法			＞1G数据	2560	1	8

推理服务器算力资源：采用适合张量计算的创新人工智能芯片架构，提供高性能视频解析能力和人工智能算力，用于AI应用场景人工智能算法的推理，系统支持3000路视频流解析；

基于昇腾芯片的AI推理卡，主要用于视频对象和行为分析，需要从视频流中提取对象和行为数据，每块AI推理卡的算力为88T（INT8）。

不同的算法模型对计算能力的要求不同，对于视频分析场景，通过业界主流ISV在该AI推理卡的测试结果来看，在每路视频的分辨率为不低于1080P，帧率不低于25帧，同屏检测目标数不低于5个的情况下，每路视频需要5.5T(INT8)的算力进行解析。单张AI推理卡算力为88T（INT8），所以每张推理卡可支持16路视频的分析。

如当前业务需要接入3000路视频的需求来计算，共需要的AI推理卡的数量为：3000/16≈188块。考虑到数据加工集群建模的并行效率（一般集群的并行效率为90%左右），留出适当的资源后需要的NPU卡的数量为：188/0.9≈209块。

1、https://arxiv.org/abs/2005.14165

2、 CNN的参数量、计算量（FLOPs、MACs）与运行速度

不同的算法模型对计算能力的要求不同，对于视频分析场景，通过业界主流ISV在该AI推理卡的测试结果来看，在每路视频的分辨率为不低于1080P，帧率不低于25帧，同屏检测目标数不低于5个的情况下，每路视频需要5.5T(INT8)的算力进行解析。参考业界流行的视频训练算法(表一、第四章)，训练一个模型需要2560TFLOPS FP16算力（8卡/周，单卡算力为320 TFLOPS FP16），运算时间为7天左右，且通常需要训练大于8~10次才能找到一个满意的模型。总算力需求20PFLOPS FP16。

什么是 AI 大模型？ AI 大模型是指通过大量训练数据和大规模参数进行训练，能够适应一系列下游任务的模型，如自然语言处理、图像识别、语音识别等。这类模型已成为主流的 AI 范式，通过巨量化可以提高 人工智能 的通用属性，并降低 人工智能 的应用门槛。以下是一个 AI 大模型的测试案例：一、明确测试目的： AI 大模型的测试目的是确保模型在不同场景下都能够表现良好二、明确测试需求：为了测试 AI 大模型的效果，需要准备大量的测试数据，包括不同领域的文本数据集三、准备测试数据：在测试过程中，需要准备大量的测试数据四、测试流程：在测试过程中，需要遵循标准的测试流程五、测试结果分析：在测试结束后，需要对测试结果进行分析，以评估 AI 大模型的效果和性能。六、改进意见：根据测试结果的分析，可以提出针对 AI 大模型的改进意见。以下是 AI 大模型学习笔记，记录重点、难点和所学内容：一、 AI 大模型概述二、 AI 大模型的训练方法三、 AI 大模型的训练流程四、 AI 大模型的应用场景 AI 大模型调研报告一、 AI 大模型概述二、 AI 大模型的训练方法三、 AI 大模型的训练流程四、 AI 大模型的应用场景及案例分析 1、卷积层的参数量 Gamma公式展示 Γ(n)=(n−1)!∀n∈N\Gamma(n) = (n-1)!\quad\forall n\in\mathbb NΓ(n)=(n−1)!∀n∈N 是通过 Euler integral Γ(z)=∫0∞tz−1e−tdt . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞tz−1e−tdt. paramet

人工智能 课程设计-基于CNN-LSTM的轴承故障诊断Python源码是一种基于 深度学习 算法的程序，旨在通过分析轴承的声音和振动信号来识别轴承的故障情况。该源码包括了详细的数据采集、预处理、模型构建、训练和测试的步骤。首先，在数据采集方面，我们使用了传感器采集了大量轴承的声音和振动信号，并将这些原始数据进行了预处理，包括信号滤波、降噪和特征提取等步骤。接着，我们以Python语言编写了源码，使用了TensorFlow或PyTorch等 深度学习 框架，构建了基于CNN-LSTM的模型。在训练方面，我们使用了提前准备好的训练数据集，对模型进行了训练，并进行了参数调优和模型性能评估。同时，我们也提供了训练好的模型文件，以便学生可以直接使用。最后，在测试方面，我们提供了轴承故障诊断的测试数据集，并编写了测试代码，让学生可以通过输入测试数据，使用训练好的模型进行轴承故障诊断，并输出诊断结果。此外，我们还提供了可视化的结果展示部分，让学生可以直观地了解诊断效果。整个源码设计旨在帮助学生深入理解 深度学习 在故障诊断领域的应用，同时也提供了丰富的数据和完整的训练流程，让学生可以通过实际操作来加深对 人工智能 技术的理解和应用。希望通过这样的课程设计，能够激发学生对 人工智能 技术的兴趣，培养其实际动手能力和创新能力。