简单观察|「华泰金工林晓明团队」再探AlphaNet:结构和特征优化——华泰人工智能系列之三十四( 二 )


1.扩充了6个比率类特征 , “数据图片”维度变为15*30 。
2.将池化层和全连接层替换为LSTM层 , 从而更好地学习特征的时序信息 。
3.训练集和验证集划分从1:1变成4:1 , 验证集更关注近期样本的表现 。
1.扩充特征提取层 , 特征提取层1和特征提取层2中的运算函数具有不同的回看区间(10和5) 。
2.将LSTM层替换为GRU , 减少模型参数 。
比率类特征具有丰富的信息 。 在遗传规划所挖掘出的因子中 , 我们观察到包含比率类特征的因子回测表现较好 , 图表8和图表9分别展示了包含比率类特征的因子1和因子2的分层回测表现 。
因子1:ts_corr(div(open,free_turn),close,10) 。
因子2:ts_corr(div(volume,low),close,10) 。
如图表11所示 , 由于特征提取层得到的特征依然具有时序信息 , 因此相比池化层 , LSTM/GRU更合适作为后续的网络结构 。
到目前为止 , 华泰金工人工智能系列报告介绍了两套方法来通过个股量价数据构建多因子选股策略 , 分别是:
1.“遗传规划+随机森林”模型:先使用遗传规划挖掘因子 , 再用随机森林做因子合成 , 详见《基于量价的人工智能选股体系概览》(2020.2.18) 。
2.AlphaNet模型:使用神经网络实现端到端的因子挖掘和因子合成 。
“遗传规划+随机森林”模型是传统机器学习时代方法的体现 , 即首先进行特征工程 , 再做模型训练 。 而AlphaNet则是深度学习时代方法的体现 , 即实现原始数据到目标问题的端到端学习 。 对于多因子选股来说 , 二者各有优劣 , 我们在图表14中做了对比 。
数据准备
1.股票池:全A股 , 中证500成分股 , 中证800成分股 。 剔除ST、PT股票 , 剔除每个截面期下一交易日涨跌停和停牌的股票 。
2.原始特征:个股日频量价信息 , 如图表15所示 。 对于每只股票 , 将其量价数据拼接成15*30的“数据图片” , 30为历史时间天数 。
3.预测目标:个股10天后标准化的收益率 。
4.回测区间:2011年1月31日至2020年7月31日 。
5.样本内数据大小:每次训练都使用过去1500个交易日的数据作为样本内数据 , 每隔两天采样一次 。
6.训练集和验证集比例:按照时间先后进行4:1划分 , 训练集在前 , 验证集在后 。
1.模型训练:从2011年1月31日开始 , 每隔半年进行滚动训练 。 样本内数据为过去1500个交易日的数据 , 训练集和验证集按照4:1划分 。
2.模型预测:在每个样本外数据截面上 , 使用最新训练的模型预测个股未来10天的收益率 。
考虑到神经网络的训练受随机数种子影响较大 , 我们会训练10个模型 , 并将10个模型的预测结果做等权平均 , 取该平均值为AlphaNet的合成因子 。
组合构建和回测
对于AlphaNet-v2合成的因子 , 在全A股和中证800成分股内测试 , 并与AlphaNet-v1进行对比 。
1.单因子IC测试和分层测试 。 分析因子的RankIC均值、ICIR、分层组合年化收益率等指标 。
2.对于全A选股模型 , 构建行业市值中性的中证500增强策略进行回测 。 分析策略的年化超额收益率、信息比率、超额收益最大回撤等指标 。
3.对于中证800内选股模型 , 构建行业市值中性的中证800增强策略进行回测 。 分析策略的年化超额收益率、信息比率、超额收益最大回撤等指标 。
对于AlphaNet-v3合成的因子 , 在中证500成分股内测试 , 并与AlphaNet-v2进行对比 。
1.单因子IC测试和分层测试 。 分析因子的RankIC均值、ICIR、分层组合年化收益率等指标 。
2.对于中证500内选股模型 , 构建行业市值中性的中证500增强策略进行回测 。 分析策略的年化超额收益率、信息比率、超额收益最大回撤等指标 。
AlphaNet-v2测试结果
本章将对AlphaNet-v2进行以下两组测试:
1.全A选股测试 , 并与AlphaNet-v1对比 。
2.中证800成分股内测试 , 并与AlphaNet-v1对比 。
单因子IC测试的方法如下:
1.样本空间:全A股 , 中证800成分股 。 剔除ST、PT股票 , 剔除每个截面期下一交易日涨跌停和停牌的股票 。
2.回测区间:2011年1月31日到2020年7月31日 。
3.截面期:每隔10个交易日 , 用当前截面期因子值与当前截面期至下个截面期内的个股收益计算RankIC值 。
4.为了分析合成因子的增量信息 , 会展示因子进行行业、市值、10日收益率、10日波动率、10日换手率五因子中性化后的测试结果 。


推荐阅读