华泰金工 | 华为、幻方气象大模型与量化投资
来源:雪球App,作者: 英伟达(NVDA),(https://xueqiu.com/-1/258229744)
来源:华泰睿思
作者:林晓明 何康 李子钰
2023年7月,华为盘古气象大模型发表于Nature正刊,预测精度和速度均超越传统数值计算方法。2023年3月,幻方基于NVIDIA的FourCastNet 和DeepMind的 GraphCast,构建了AI气象预测开源大模型OpenCastKit。AI气象大模型的成功对于金融资产预测有一定借鉴意义。截至2023年8月11日,AI 中证1000 增强组合相对中证1000上周超额收益0.29%,今年以来超额收益为9.59%。截至2023年8月11日,机构调研选股组合相对 中证500 近一月超额收益为-1.62%,今年以来超额收益为21.46%。截至2023年8月11日,AI多策略500增强模型上周超额收益为1.17%,今年以来超额收益为5.48%。截至2023年8月11日,文本FADT_BERT组合上周绝对收益为-2.63%,今年以来绝对收益为11.95%,相对中证500超额收益11.11%。截至2023年8月11日,FADT组合上周绝对收益为-1.24%,今年以来绝对收益为5.15%,相对中证500超额收益4.32%。
华为、幻方AI气象大模型对量化投资的启示
2023年7月,华为盘古气象大模型发表于Nature正刊,预测精度和速度均超越传统数值计算方法。2023年3月,幻方基于NVIDIA的FourCastNet 和DeepMind的 GraphCast,构建了AI气象预测开源大模型OpenCastKit。FourCastNet 和盘古大模型的主体是Vision Transformer和Swin Transformer,GraphCast的主体是图神经网络,三者均针对气象预测场景进行了创新性改造。天气系统和金融系统同属于高维混沌系统,信噪比低,预测难度大。AI气象大模型的成功对于金融资产预测有一定借鉴意义。
AI 中证1000 增强组合上周超额收益0.29%,今年以来超额收益9.59%
截至2023年8月11日,AI 中证1000 增强组合相对中证1000上周超额收益0.29%,今年以来超额收益为9.59%。模型2018年初回测以来相对中证1000年化超额收益率为26.53%,年化跟踪误差为7.70%,信息比率为3.45,超额收益最大回撤为6.84%,超额收益Calmar比率为3.88。
机构调研选股组合近一月超额收益-1.62%,今年以来超额收益21.46%
截至2023年8月11日,机构调研选股组合相对 中证500 近一月超额收益为-1.62%,今年以来超额收益为21.46%。模型回测以来年化收益率为28.69%,相对中证500年化超额收益率为22.71%,信息比率为2.15,超额收益最大回撤为14.42%。
AI多策略500增强模型上周超额收益1.17%,今年以来超额收益5.48%
截至2023年8月11日,AI多策略500增强模型上周超额收益为1.17%,今年以来超额收益为5.48%。模型2011年初回测以来年化超额收益率为18.79%,年化跟踪误差为5.88%,信息比率为3.20,超额收益最大回撤为7.66%,超额收益Calmar比率为2.46。
文本FADT_BERT组合今年绝对收益11.95%,相对 中证500 超额11.11%
截至2023年8月11日,文本FADT_BERT组合上周绝对收益为-2.63%,今年以来绝对收益为11.95%,相对 中证500 超额收益11.11%。自2009年初回测以来年化收益率43.24%,相对中证500超额年化收益34.08%,组合夏普比率1.51。
文本FADT组合今年绝对收益5.15%,相对 中证500 超额4.32%
截至2023年8月11日,FADT组合上周绝对收益为-1.24%,今年以来绝对收益为5.15%,相对 中证500 超额收益4.32%。自2009年初回测以来年化收益率39.22%,相对中证500超额年化收益30.45%,组合夏普比率1.35。
01华为、幻方AI气象大模型对量化投资的启示
2023年7月,华为盘古气象大模型发表于Nature正刊,预测精度和速度均超越传统数值计算方法。2023年3月,幻方基于NVIDIA发布的FourCastNet 和DeepMind发布的 GraphCast,构建了全球AI气象预测开源大模型OpenCastKit。AI气象大模型使用了哪些方法?天气系统和金融系统同属于高度复杂的混沌系统,气象大模型对量化投资有何启示?
天气预测任务主要是基于过去的气象数据,预测未来的气象要素,包括地表和不同等压面上的温度、风速、雨量等。预测期限包括短期(3天内)和中期(4~10天)。传统方法将天气预测视为一个动力学问题,通过解微分方程组预测未来气象要素。AI方法首先将地表进行网格化,使用深度学习方法构建大模型,预测每个区域未来的气象要素,其中大部分基于Transformer模型的变种。
Transformer变种
Vision Transformer(ViT)
Transformer自从2017年提出后,在自然语言处理领域得到广泛应用。二维图像数据和一维文本数据在维度上有本质差异,无法直接输入Transformer。2020年Google Brain提出Vision Transformer(ViT)克服了上述困难,将Transformer应用于图像处理领域。ViT的结构如下图所示,将大图像划分为小Patch,将Patch映射为一维向量,输入Transformer Encoder,成功将Transformer应用于图像分类等任务,打破了CNN在该领域的“统治”。
Swin Transformer
对于高分辨率图像,ViT计算耗时依然较长,同时固定大小的Patch也难以适应尺寸不一的物体。2021年微软亚洲研究院提出Swin Transformer,进一步提升预测性能和计算效率。它也是盘古气象大模型使用的主要模型。Swin Transformer的结构如下图所示,相较于ViT有两个主要改进方向:
1.将此前固定大小的Patch改为通过降采样逐渐扩大每个Patch覆盖的像素数量,提取不同尺度的物体特征。
2.将全局的Attention修改为局部的Window Attention和Shift Window Attention,降低了计算量。
AI气象大模型
FourCastNet模型
2022年NVIDIA提出FourCastNet气象预测模型。输入为t时刻的气象要素,输出为t+1时刻的气象要素。主体模型为ViT。输入图像尺寸为1440*720,为支持长序列的输入,将Transformer Encoder的Attention模块替换为成自适应傅立叶神经算子,使计算复杂度从原来的降为,其他结构与ViT基本一致。
盘古气象大模型
2022年华为云提出盘古气象预测模型,2023年发表于Nature。输入为t时刻的气象要素,输出为t+1时刻的气象要素,包含1440*721个区域上13个气压层的5个要素和地表的4个要素。主体模型为Swin transformer,总参数量为2.56亿。创新点包括:
1.将高度视为新的维度,输入数据变为三维。
2.在Attention中加入了地球绝对位置偏置。
3.分层时间聚合,即分别训练预测未来1、3、6、24h模型,推理时采用贪婪算法,选取短期模型进行迭代预测。
GraphCast模型
2022年DeepMind提出GraphCast气象预测模型。输入为t-1和t时刻的气象要素,输出为t+1时刻的气象要素。主体模型为DeepMind在2020年提出的MeshGraphNets图神经网络。GraphCast的创新点主要是构建多级Mesh网络,相比此前仅根据经纬度进行网格划分的方式,可以更均匀地近似地球。
对量化投资的启示
天气系统和金融系统同属于高维混沌系统,信噪比低,预测难度大。AI大模型在气象预测问题上取得成功,在金融资产预测问题上也有一定借鉴意义:
1.AI气象大模型的主体部分都是相对成熟的深度学习网络,但在实践层面针对气象预测场景进行了创新性改造,从而实现了性能上的突破。未来AI量化投资的竞争可能不在于新模型的发明,而在于已有模型针对金融场景的适应性改造以及工程上的优化。
2.当前Transformer在量化投资中主要用于一维时间序列编码,如果将股票数据视为股票*时间*因子的多维图像,或可使用Swin Transformer类似结构,同时学习股票时序信息和股票间关系信
3.华为盘古大模型使用地球绝对位置作为Transformer模型Attention的偏置项,本质上是引入先验知识。如何将投资中的先验知识融入模型,或是值得探索的方向之一。
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need.Advances in neural information processing systems, 30.
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Houlsby, N. (2020). An image is worth 16x16 words: Transformers for image recognition at scale.arXiv preprint arXiv:2010.11929.
Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., ... & Guo, B. (2021). Swin transformer: Hierarchical vision transformer using shifted windows. InProceedings of the IEEE/CVF international conference on computer vision (pp. 10012-10022).
Pathak, J., Subramanian, S., Harrington, P., Raja, S., Chattopadhyay, A., Mardani, M., ... & Anandkumar, A. (2022). Fourcastnet: A global data-driven high-resolution weather model using adaptive fourier neural operators.arXiv preprint arXiv:2202.11214.
Bi, K., Xie, L., Zhang, H., Chen, X., Gu, X., & Tian, Q. (2023). Accurate medium-range global weather forecasting with 3D neural networks.Nature, 1-6.
Lam, R., Sanchez-Gonzalez, A., Willson, M., Wirnsberger, P., Fortunato, M., Pritzel, A., ... & Battaglia, P. (2022). GraphCast: Learning skillful medium-range global weather forecasting.arXiv preprint arXiv:2212.12794.
02AI 中证1000 增强组合表现跟踪
华泰金工 中证1000 增强组合构建方法如下:
1.因子:包含估值、成长、财务质量、技术、预期、神经网络多频率因子等。神经网络多频率因子参见报告《神经网络多频率因子挖掘模型》(2023.5.11)。
2.因子合成模型:Boosting模型。
3.组合构建方式:控制行业和市值暴露,个股权重偏离上限为1%,成分股权重占比为80%,周频调仓,交易费用为单边千分之二。
截至2023年8月11日,AI 中证1000 增强组合相对中证1000上周超额收益0.29%,今年以来超额收益为9.59%。模型2018年初回测以来相对中证1000年化超额收益率为26.53%,年化跟踪误差为7.70%,信息比率为3.45,超额收益最大回撤为6.84%,超额收益Calmar比率为3.88。
03机构调研选股组合表现跟踪
参考华泰金工报告《利用文本和反转改进机构调研选股》(2023.2.9),机构调研选股组合构建方法如下:
1.将研报文本因子和一致预期EPS季度环比变化率因子标准化后等权合成,在每个调仓日剔除合成因子排名后10%的股票。
2.在第1步筛选的股票中,计算过去60个交易日个股相对 中证500 的累积超额收益,在每个调仓日剔除超额收益排名前60%的股票。
3.在第2步筛选的股票中,按照过去60个交易日调研次数排序选取前30只股票作为策略持仓,股票的权重为log(调研次数)。
4.策略在每月第一个交易日以当日vwap价格调仓,交易成本为双边千分之三。策略基准为 中证500 。
截至2023年8月11日,机构调研选股组合相对 中证500 近一月超额收益为-1.62%,今年以来超额收益为21.46%。模型回测以来年化收益率为28.69%,相对中证500年化超额收益率为22.71%,信息比率为2.15,超额收益最大回撤为14.42%。
04AI多策略选股模型近期表现
AI多策略选股模型应用如下华泰金工研究成果:
1.《人工智能55:图神经网络选股的进阶之路》(2022-04-11)的残差图注意力网络。
2.《人工智能67:AI模型如何一箭多雕:多任务学习》(2023-05-06)多任务学习网络。
将上述网络预测值静态加权,构建 中证500 指数增强组合,定期跟踪模型表现。组合为周度换仓,单次换仓单边换手率上限为15%,回测交易费率单边千分之二。选股因子、测试流程等细节请参见原文。
截至2023年8月11日,AI多策略500增强模型上周超额收益为1.17%,今年以来超额收益为5.48%。模型2011年初回测以来年化超额收益率为18.79%,年化跟踪误差为5.88%,信息比率为3.20,超额收益最大回撤为7.66%,超额收益Calmar比率为2.46。
05文本FADT_BERT选股组合近期表现跟踪
华泰金工研报《人工智能62:再探文本FADT选股》(2022-10-28)中,我们对盈利预测调整场景下的文本因子进行升级,构建了forecast_adjust_txt_bert因子,并基于该因子的多头端基础股票池进行增强,构建top25的主动量化选股组合文本FADT_BERT(forecast-adjust-text portfolio BERT版)。
截至2023年8月11日,文本FADT_BERT组合上周绝对收益为-2.63%,今年以来绝对收益为11.95%,相对 中证500 超额收益11.11%。自2009年初回测以来年化收益率43.24%,相对中证500超额年化收益34.08%,组合夏普比率1.51。
06文本FADT选股组合近期表现跟踪
华泰金工研报《人工智能57:文本FADT选股》(2022-07-01)我们在分析师盈利预测调整的场景下对相关研报的标题和摘要进行情感分析,构建了forecast_adj_txt因子,并基于该因子的多头端基础股票池进行增强,构建top25的主动量化选股组合FADT(forecast-adjust-text portfolio)。
截至2023年8月11日,FADT组合上周绝对收益为-1.24%,今年以来绝对收益为5.15%,相对 中证500 超额收益4.32%。自2009年初回测以来年化收益率39.22%,相对中证500超额年化收益30.45%,组合夏普比率1.35。