股吧首页 > 财富号评论吧(cfhpl) > 正文
  • 最近访问:
财富号评论吧
返回财富号评论吧>>
发表于 2020-02-20 07:36:35 股吧网页版
【华泰金工林晓明团队】基于量价的人工智能选股体系概览


发布时间:2020年2月18日


核心观点

本文构建了基于量价的人工智能选股体系并测试其有效性


经过华泰金工前期报告的探索,我们认为人工智能模型已经可以很好融入多因子选股模型的因子生成和多因子合成步骤。在多因子模型的信息来源中,量价信息能提供海量的数据,是最适合AI技术运用的领域。本文构建了基于量价信息的全流程人工智能选股体系,主要包含三个步骤:(1) 遗传规划自动挖掘因子;(2) 机器学习模型进行多因子合成;(3) 机器学习模型的可解释性分析。在测试中,该体系能提供独立于传统多因子模型的增量超额收益。

步骤1:遗传规划自动挖掘因子——因子的适应度、增量信息和挖掘效率

因子是超额收益的来源。遗传规划通过暴力生成 进化的方式,从原始量价数据中挖掘选股因子。该步骤中有三个关键环节:(1)因子适应度的定义,如果以因子的RankIC作为适应度,则可以挖掘线性因子;如果以因子的互信息为适应度,则可以挖掘非线性因子。非线性因子可能描述了市场中更高维度的规律,如果能利用这种规律,则可能为现有体系提供增量的alpha信息。(2)挖掘增量信息需要引入因子正交化机制,为了避免频繁正交化带来的时间开销,我们提出以残差收益率为预测目标的增量信息挖掘方法。(3)提升因子挖掘的效率需要借助高性能计算的技术。

步骤2:机器学习模型进行多因子合成——强拟合能力和过拟合的权衡

相比线性模型,机器学习模型有更强的拟合能力,能够拟合非线性关系。实际应用中,需要在机器学习的强拟合能力和过拟合现象间寻找平衡点。针对机器学习模型易过拟合的缺点,我们引入特征选择和时序交叉验证调参。本文选择嵌入式特征选择方法——随机森林模型,在模型训练时自动进行特征选择,并使用时序交叉验证对模型的三个关键参数寻优。

步骤3:机器学习模型的可解释性分析——从“黑箱”到“白箱”

模型的可解释性是指人类能够理解其决策原因的程度。优秀的可解释性有助于打开机器学习模型的“黑箱”,提升人类对模型的信任,其重要性体现在:建模阶段,辅助研究人员理解模型,进行模型的对比选择,必要时优化调整模型;在投入运行阶段,向他人解释模型的内部机制和结果,并通过可解读的反馈结果不断优化模型。本文主要使用基于SHAP值的方法进行模型可解释性分析。

基于量价的人工智能选股能提供独立于传统多因子模型的增量超额收益

本文从日频量价信息出发,通过遗传规划滚动挖掘调仓周期为20个交易日的因子,并使用随机森林模型拟合得到合成因子。合成因子进行行业、市值、20日收益率、20日波动率、20日换手率五因子中性化后,RankIC均值为8.87%,IC_IR为1.16,分五层测试中TOP组合年化超额收益率为9.65%,信息比率为3.08。将合成因子叠加到使用传统因子的模型上后构建中证500增强选股组合,可使得组合的年化超额收益率平均提升1.38%,信息比率平均提升0.14。SHAP值可解释性分析显示,随机森林模型有效利用了遗传规划挖掘出的线性因子和非线性因子。

风险提示:通过人工智能模型构建的选股策略是历史经验的总结,存在失效的可能。遗传规划所得因子可能过于复杂,可解释性较低,使用需谨慎。机器学习模型存在过拟合的风险。机器学习模型解释方法存在过度简化的风险。

(来源:华泰证券资产管理的财富号 2020-02-20 07:36) [点击查看原文]

笔记广场
郑重声明:用户在财富号/股吧/博客社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500