简单观察|「华泰金工林晓明团队」再探AlphaNet:结构和特征优化——华泰人工智能系列之三十四( 二 )
2.将池化层和全连接层替换为LSTM层 , 从而更好地学习特征的时序信息 。
3.训练集和验证集划分从1:1变成4:1 , 验证集更关注近期样本的表现 。
2.将LSTM层替换为GRU , 减少模型参数 。
因子1:ts_corr(div(open,free_turn),close,10) 。
因子2:ts_corr(div(volume,low),close,10) 。
1.“遗传规划+随机森林”模型:先使用遗传规划挖掘因子 , 再用随机森林做因子合成 , 详见《基于量价的人工智能选股体系概览》(2020.2.18) 。
2.AlphaNet模型:使用神经网络实现端到端的因子挖掘和因子合成 。
“遗传规划+随机森林”模型是传统机器学习时代方法的体现 , 即首先进行特征工程 , 再做模型训练 。 而AlphaNet则是深度学习时代方法的体现 , 即实现原始数据到目标问题的端到端学习 。 对于多因子选股来说 , 二者各有优劣 , 我们在图表14中做了对比 。
1.股票池:全A股 , 中证500成分股 , 中证800成分股 。 剔除ST、PT股票 , 剔除每个截面期下一交易日涨跌停和停牌的股票 。
2.原始特征:个股日频量价信息 , 如图表15所示 。 对于每只股票 , 将其量价数据拼接成15*30的“数据图片” , 30为历史时间天数 。
3.预测目标:个股10天后标准化的收益率 。
4.回测区间:2011年1月31日至2020年7月31日 。
5.样本内数据大小:每次训练都使用过去1500个交易日的数据作为样本内数据 , 每隔两天采样一次 。
6.训练集和验证集比例:按照时间先后进行4:1划分 , 训练集在前 , 验证集在后 。
2.模型预测:在每个样本外数据截面上 , 使用最新训练的模型预测个股未来10天的收益率 。
考虑到神经网络的训练受随机数种子影响较大 , 我们会训练10个模型 , 并将10个模型的预测结果做等权平均 , 取该平均值为AlphaNet的合成因子 。
组合构建和回测
对于AlphaNet-v2合成的因子 , 在全A股和中证800成分股内测试 , 并与AlphaNet-v1进行对比 。
1.单因子IC测试和分层测试 。 分析因子的RankIC均值、ICIR、分层组合年化收益率等指标 。
2.对于全A选股模型 , 构建行业市值中性的中证500增强策略进行回测 。 分析策略的年化超额收益率、信息比率、超额收益最大回撤等指标 。
3.对于中证800内选股模型 , 构建行业市值中性的中证800增强策略进行回测 。 分析策略的年化超额收益率、信息比率、超额收益最大回撤等指标 。
对于AlphaNet-v3合成的因子 , 在中证500成分股内测试 , 并与AlphaNet-v2进行对比 。
1.单因子IC测试和分层测试 。 分析因子的RankIC均值、ICIR、分层组合年化收益率等指标 。
2.对于中证500内选股模型 , 构建行业市值中性的中证500增强策略进行回测 。 分析策略的年化超额收益率、信息比率、超额收益最大回撤等指标 。
AlphaNet-v2测试结果
本章将对AlphaNet-v2进行以下两组测试:
1.全A选股测试 , 并与AlphaNet-v1对比 。
2.中证800成分股内测试 , 并与AlphaNet-v1对比 。
单因子IC测试的方法如下:
1.样本空间:全A股 , 中证800成分股 。 剔除ST、PT股票 , 剔除每个截面期下一交易日涨跌停和停牌的股票 。
2.回测区间:2011年1月31日到2020年7月31日 。
3.截面期:每隔10个交易日 , 用当前截面期因子值与当前截面期至下个截面期内的个股收益计算RankIC值 。
4.为了分析合成因子的增量信息 , 会展示因子进行行业、市值、10日收益率、10日波动率、10日换手率五因子中性化后的测试结果 。
推荐阅读
- 武契奇|塞尔威亚总统武契奇:我在白宫捍卫了和中国的关系
- ipo观察|李书福的身价能赶超马克斯吗?,吉利汽车IPO后
- 网红美食|网红甜点椰丝球自己动手做,简单零失败,甜丝丝的吃不胖
- 中国新闻网|服贸会观察:区块链为何能成全球贸易“助推器”?
- 【】服贸会观察:区块链为何能成全球贸易“助推器”?
- 央视网|新闻观察:北京自贸区呼之欲出 实施好营商环境改革4.0系列政策措施
- 川报观察|邻水这个贫困户把院子变成了花园 还从东北“摇”回一个媳妇儿
- 徐婷|4年前,徐婷在北京全身溃烂而亡,其实背后不只是患癌这么简单
- 澎湃新闻|全球城市观察︱搬回父母家,疫情期间“回巢”的美国年轻人
- 新闻观察:北京自贸区呼之欲出 实施好营商环境改革4.0系列政策措施
