原创 北落的师门 韭圈儿
投资难,选基难,只想跑赢主动基金的平均水平,难上加难。
看得到,摸不到,只想一键解码885001,简简单单投资。
这段时间,相信不少基民都备受煎熬。现在通过量化的方法,或许在一定程度上能解决你的这个痛点。
曲径,复旦大学数学系本科,美国卡内基梅隆大学硕士,具拥有15年证券从业经验,6年公募基金管理经验,擅长基本面与量化结合的系统化投资。历任美国千禧年基金和中信证券投资岗。现任中欧基金量化投资总监,及中欧数据挖掘混合A(001990)、中欧量化驱动(001980)基金经理。
885001是什么?
北落的师门
各位小伙伴大家好,我是你们的老朋友北落的师门。今天非常高兴邀请到中欧基金基金经理曲径来跟我们做交流。曲总从业有15年的时间,其中管理基金超过了6年,一直专注在量化投资上。
大家经常说,基金赚钱,基民不赚钱。我们通常拿885001这个偏股混合型基金指数,作为基准去给大家做数据演示。有人说,我就要这个指数的收益率就行了,就是平均水平,不要求太高,能不能做到?
我们先请曲径总科普一下,885001到底是一个什么样的指数?
曲径
中国作为一个发展中国家的股票市场,最大的特点就是主动管理的基金经理有更多阿尔法机会。
885001或许在一定程度上可以描述中国主动管理股票基金经理最终的水平特征。它是万得编制的偏股混合型基金指数,把中国市场上所有成立三个月以上的偏股型混合基金纳入在样本里,每天根据净值取一个平均数,展示的业绩相当于偏股混合基金经理们平均的投资水平。
北落的师门
从历史上看,这个平均水平在A股市场是有超额收益的,跟沪深300、中证500这样的指数比,呈现出什么样的特征?这些基金经理最终的平均结果表现出来什么样的业绩?
曲径
2015年之后基金行业大发展,到现在的7年里,偏股混合型基金指数5年都跑赢沪深300,有6年跑赢中证500,所以它跟宽基指数相比,常年胜率都是比较高的。
再看更长的时间,如果从2004年开始看,中证500到现在涨幅468.67%,沪深300涨幅235.65%。偏股混合型基金指数从2004年到今年5月5日这一天,涨幅是889.05%,平均年化收益率13.73%。
所以从历史数据看,偏股混合型基金指数一定程度上反映了大家所说的基金赚钱的情况。更有意思的一点,历次市场大跌之后偏股混合型基金指数到底怎么样?
A股作为发展中国家新兴市场,历史波动就是比较高的。从2004年底到现在,这张图上就展示了我们偏股混合型基金指数在过去几轮牛熊当中的收益情况。非常有意思是它的涨跌情况和我们印象中的指数涨跌情况不一样。比如说今天又回到了3000点,但是885001作为公募基金的偏股混合型基金指数代表,整体来讲收益率还是比较好的。
用量化解码885001
北落的师门
咱们不否认基金赚钱,现在的问题是为什么基民还不赚钱,甚至基民想要一个平均水平都很难?
大家选择某只基金的时候,很有可能就是它最高光的时刻。那个时候刚刚过了业绩的最甜蜜期,开始名声鹊起,然后开始规模膨胀,这个时候进去就很难再赚到平均水平了。另外,这是一个不可复制的指数,包含了2000多只基金。所以大家想要平均水平,每年能做到这点就很满意,从投资上怎么去解决?能提供这样的标的和工具吗?
曲径
这就是我们开始研究这件事情的目的。885001好像每天都看得到,摸得到,但是好像投资收益得不到。
另一方面我们做量化擅长做数据测算。以连续5年做一个移动窗口, 我们测算了一下,有多少基金能够连续五年跑赢885001?如果有好多基金经理都能达到这个水平,买他的基金就行了。我们发现能连续五年跑在885001之上的基金经理并不多,而且还是每五年轮换的。为什么看5年?因为5年是一个价值成长的窗口周期。看一年两年可能不准,看五年至少有两轮不同的风格切换。所以想得到一个跑赢885001的比较难。
而且我们量化擅长做模型,想通过数学的手段,以手头能得到的工具为抓手,建个模型看能不能把885001拆出来,把它的成分股、行业配置描述清楚,要是能把这个描述清楚,我们就得到了一个可投的基金。
权益型基金一年有两个全持仓答案,一个是半年报,一个是年报。另外,有四个模糊答案,就是每个季报之后15个交易日公告的前十大。以前有一种简单粗暴的办法,就是买前十大。后来拿历史上15年的数据来回测,就会发现总是在追高,跟不上收益节奏。后来我们就用了一些数学办法来解读这个事情。除了刚才两个正确答案,四个模糊答案以外,还有一个工具就是每天净值的涨跌幅,净值的涨跌幅其实由他配置的主要行业影响,比如说今天医药大涨,它配置的医药高,天然弹性就会更高一点,这是很直观的。由于知道可能最近的它的连续净值,就可以回归在行业的涨跌幅上,大概率估计出来它配置在哪些行业上,就有了一个估计数。这个估计数用前面的两个正确答案和四个模糊答案去校准。一年当中有六个校准点,然后实时用净值回归的结果,就可以估计出来一个基金大概往哪个方向在加仓,哪个方向在减仓。
不过,这对于单只基金会产生一个问题。找一个明星基金经理,按这个方式测算,他的持仓变化肯定不准,因为个股和行业内部之间还有阿尔法。但是当一两千个基金综合来看,可以一定程度上消减刚才估计误差,所以最终我们就用它每天净值的涨跌幅和行业涨跌幅之间的关系,以及他一年校准的两个全持仓的正确答案和四个前十大的模糊答案,估计出885001全持仓的持股行业配置。
北落的师门
那有两个小问题,第一个就是用净值去校准,有一些行业会不会相关性很高,到时怎么猜大家到底配的什么?第二个就是行业特别多,你们做回归分析的时候,大概会看多少个行业的指数?
曲径
你说的这个问题就是为什么有些人用我们刚才口述的这个办法去做,发现回归出来的猜不对。因为写模型讲的是框架,所有的效果都在细节里。同涨同跌的问题,在数学里有个词叫共线性,比如最典型的就是医药和白酒,可能经常同涨同跌。我们要增加一些强假设,首先把自变量的共线性去掉,使得你的系数更稳定,估计得更对。
第二个问题,比如说现在申万一级30多个行业了,只用最近15天的净值去估计30个行业肯定估计不出来。这在数学里面有另一个名字,叫做自由度。自由度太多,我们也要用量化的办法,去压缩自由度。
雷达扫描式投资,决策更理性
北落的师门
你们量化投资的方法和策略和其他基金公司有什么不同?有人做基本面量化,有人做多因子,有人还可能会用其他的技巧,像私募用的方法更多。我不知道你们是属于什么风格,可不可以给我们介绍一下。
曲径
我在加入中欧基金之前的十年,主要是做多因子。多因子到底是怎么发源的?它在美国特别有意思,比如说PB-ROE双因子。美国90年代,有些聪明人极大地抽象了优秀的老基金经理脑子里想的事情,用一些抽象的算数把它表述出来,找到PB-ROE的好公司。当时在表述出来的时候,其实有美国经济环境和科技环境的背景,因为90年代结构化数据第一次大幅应用到了这个投资当中。在之前比如说富达的基金经理,他是从美国证监会把报表打印出来,然后去分析里面的结构,让他的研究员帮他去算公司ROE、ROIC各种各样的情况,再去决策这个公司要不要去投。
1995年美国芯片大降价,计算机大幅应用到了投资当中,最后发现可以用些办法清洗会计报表上的科目,把这些科目放到一个结构化的数据库里,当上市公司公布会计报表的时候,就可以和老基金经理在同一个时间知道这个数,但是算得比别人快,可以当天就决策,公司又便宜又好就去买了。多因子从1995年到2009年之间在美国的蓬勃发展,很重要的就是有信息获取和信息处理的能力。
如今,如果到中欧基金找一个汽车研究员,让他用PB-ROE推个股票,他肯定会笑话我,这看的是什么基本面?我们想做的事情就是把口述的行业选股的核心逻辑写成模型,模仿当年美国的多因子,通过科技的手段把这些数据处理好,发出信号,使得我们在时间轴以及逻辑上都不滞后主动管理的基金,这样才有信息获取、处理的优势。
最后举个例子,我们基本面量化怎么做?打个比方,汽车这个行业真正看基本面的人,肯定要看乘联会和中汽协的销售数据、社会库存、车场库存,还有政策像购置税减免,我们要变成哑变量(Dummy Variables)放在模型里。最终会变成一个像真正基本面投资的人看的东西,但好处是模型会每天像雷达一样扫描自动抓数据、处理信号并形成投资决策。这样才会形成真正的基本面与量化相结合的投资方式。
基本面量化本质上讲就是多因子的进阶版。如果站在三维角度向下俯视量化整个平面所有不同的策略,会发现多因子就是第一代利用基本面逻辑的量化,只不过是更为抽象,在截面上横着比,所有的行业用一个模型去做。但是我们希望比它更具象,更深入地挖掘基本面真正关注的东西,把它写成模型。
现在我们基本面研究,找方法和建模型基本上已经有了相对应的节奏。一个行业的研究模型1.0版本搭好,2.0版本更新,3.0版本上线。覆盖这么多行业没有想得那么复杂,因为我们一旦写好了模型,它就自动帮我去抓数据、跟踪和处理问题了。
北落的师门
偏股混合型基金指数在历史上表现怎么样,尤其是熊市?
曲径
刚才我们讲到偏股混合型基金指数每年的收益率,从2004年到现在是13.7%,为什么是这个水平?整体来看买股票买的是公司的投资回报,是ROE的水平,主动管理基金经理平均来讲买的是相对比较好的公司,最后长期来看ROE都在10-15之间。最后就获得13.7%左右的回报,是一个正常权益投资的回报。
说到熊市,因为我2008年在纽约,经历了美国金融危机,我对这件事情印象实在太深了。
北落的师门
正好今天我们也借这个机会给大家做心理按摩,就是经历了这么多次熊市,从您目前的感受是什么样的?跟2008年在美国的时候那种情绪比,是一个什么样的状态?
曲径
2008美国金融危机基本上是从2007年下半年,一直到了2008年9月,作为刚工作第一年的研究员,我觉得人生工作的起点是这个时间太好了。因为经历了那件事情之后,我很少发生惶恐的情况。
当时我做的主要是欧洲大陆多国跨国交易的量化模型。那个时候我每天晚上在纽约凌晨三点一定会自然醒。凌晨三点正好是欧洲开盘的时候,然后打开我的彭博和远程机看看情况。其实现在可能投资年限还不长的投资经理、研究员们感受到了深深的焦虑。我也是从那个时候过来,但是之后我就发现爱岗老司机是怎么做的。
2008年9月15号我印象特别深,9月14日美联储开会决定不救雷曼了,然后我就干了一件事情,从家里走出来,对着雷曼兄弟的大楼照了一张相,当时上面的霓虹灯是雷曼兄弟,第二天早上经过那栋楼的时候上面已经变成了巴克莱资本。因为雷曼倒了,曼哈顿所有人都非常恐慌,从来没见过的金融危机,肯定连锁反应要再倒一两个大行,后来果然美林就跟美国银行合并了,大家觉得高盛可能会是下一个,市场恐慌到这个水平的时候,巴菲特买了高盛优先股。
一直到现在市场波动的时候,就会回想到那个时候。如果在20多岁,市场跌到这个情况,敢不敢去买美国的股票?如果在当时买了标普500,后面就是2008年到2019年的十年牛市。
现在每次优秀的公司估值到了非常便宜的水平,我就会问自己,如果站在当年我敢不敢买。所以人就是在一代一代的金融危机当中成长起来的。我能感觉到越有经验的基金经理,遇到了危机的时候心中是越兴奋的。因为市场逐渐到了有更多筹码可选的机会了。以前看芒格的访谈,有一个人曾经问他,“你觉得人生能够到此获得现在的成就?你觉得你性格当中最重要的一点,只能说一个词是什么?”然后查理芒格说:“理性。”
基本面量化,追求预判你的预判
北落的师门
基本面量化这种方法像武林门派各式各派,都有自己适应的环境,擅长的地方没有高低之分。所以这个门派,它通常在什么样的市场环境下会更有优势一些,让大家的投资体验上会更好?
曲径
第一,量化是不极端、比较分散的状态。所以在“一九”行情当中量化肯定是不突出,比如说市场当中只有10%的股票在涨,90%的股票在跌。
第二,看几个时间点的特征,2019年的2月、3月是最近一次大家有印象的从大盘价值转向大盘成长;去年的2月、3月是从以消费长久期折现为抓手的投资框架转向科技成长;今年一季度主要是风险偏好的快速下行,从高估值转向防守。在这种转换的一个季度中,基本面量化都不会表现得特别突出。
因为我们做基本面量化希望赚的是上市公司,比如说一个季度到一年之间,净利润改善之后带着股价涨的钱。和中高频的统计套利技术指标不一样,我们希望赚的是中期的钱。所以在过程中难免会遇到风格变化产生的压力,虽然最终股价还是会回到正轨,但是会产生一个季度的波动,因为我们目标的投资周期是一个季度到一年的框架。
这上面两种场景下,量化是有可能发生回撤的。
北落的师门
某一个行业会去抓哪些基本面的数据,是不是关于动量的因子就不在您的模型当中,能不能举一些例子?
曲径
其实我们主要预测上市公司一个季度到一年这个周期净利润变化的情况,这是我们做基本面量化胜率最高的区间。因为一个季度到一年,数据和逻辑驱动最容易判断出上市公司净利润变化的情况。再长时间可能要有管理层、赛道等各种各样的原因了。那判断在这个框架下面公司盈利情况就要深入到每一个行业,看行业的经营特征。
比如这两年大家非常关注生猪养殖。我们写模型的目标就体现在了模型里:我们尽可能预判你对价格的预判。猪价最后一定会反映到上市公司的收入里,去跟踪高频猪价就反映了上市公司下一个报表情况。但是这个事情太短了,只是同步指标。我要去预判猪价,就要去看供给和需求的情况。基本面的支持就是一头母猪要怀孕4个月,仔猪育肥4-6个月,所以看现在的猪价再往回推9个月,如果9个月之前能繁母猪不够,9个月之后猪价供不应求就涨,这就是市场中一般预判猪价的方式。但更重要的是,你要预判别人对猪价的预判,你要去预判能繁母猪的情况,所以能繁母猪的情况就会映射到整个行业供需对比的情况。猪的需求是中国老百姓吃猪肉,基本上是稳态。这跟钢铁不一样,钢铁的需求是下游房地产,一直在波动。因此,供给上就要再把供给的成本曲线拉出来看成本。养殖最高的那些人什么时候去化,等到他们觉得养猪这个事亏钱,再也不干了,然后能繁母猪就会变少,9个月之后猪价就会涨。所以最终写的模型一定是去预判这些人什么时候会退出产能,我们再把基本面的模型搭进去来预测。
北落的师门
像养猪行业的这个数据,实际上要找到别人不知道的信息你才有可能赚钱,这个模型怎么去加工它,过程是怎么样的?
曲径
首先,我们不光是赚数据比别人知道快的钱,更赚的是我们模型更理性的钱。模型最大的好处就是不贪婪不恐惧。但是作为一个人,有可能那时候还是很兴奋,因为猪价在最高点,而且股价还在持续的上涨。我可能下不了手去低配,但是模型会提示我们会低配,要信任他的理性。
第二,对应传统多因子来讲,做量化的一定要有信息获取和处理的优势。获取的好,处理的好,才能有先发优势。在建模型中会用到非常多的数据拆解成本,比如说外购仔猪的价格,这是散养农户养猪的成本。一头猪要吃多少豆粕,吃多少玉米,吃多少维生素,或人工成本是多少,这些数据都可以用高频数据替代。外购仔猪数据我们现在能拿到日数据,豆粕可以用豆粕期货,玉米用玉米期货,维生素价格也有高频数据,全部算下来基本上可以把模型映射到日的阶段。这就像当年的多因子能够自动把会计报表清算出来,以参考老基金经理们去读会计报表以及手工去算判断的步骤。我们更像自动把数据处理出来,替代了在excel里把数据填上找拐点的步骤。
北落的师门
有没有哪些行业是没法用这种方法做的?就是难度特别大或者做了也没效。
曲径
我们举两个例子,比如A股计算机行业里的金融科技、乘用车自动驾驶相关,建筑建材相关的,都是订单驱动、项目制的。当他一年想确认多少收入,是根据他自己的会计判断,项目进程到60%,确认60%的收入进会计报表。量化非常难拿到他今年打算确认多少收入的,即便能够在各个网站上扒到他合同的总量,也很难预测他做净利润的情况。这样的行业还包括苹果产业链,优秀的分析师可以通过前瞻去判断明年是不是要多一个摄像头或者多个屏下指纹。但是我们拿到它的产量、销量和订单的时候,股价可能都已经反映完了。
量化之道,用数据验证逻辑
北落的师门
大家在选产品的时候,尤其是量化产品,哪一类投资者适合这种基本面量化的产品?
曲径
我经常跟我们的客户讲,基本面量化是没办法给集中的弹性。你可以去买单个行业的ETF,那个弹性肯定是最大的。我们更多的是在更宽的维度上,从每一个行业选出来我们认为更好的公司,同时在行业赛道上略微高低配景气度上今年到明年最好的行业。通过这个办法争取权益投资当中更优秀行业和股票的回报。就像885001一样,2004年到现在的年化回报是13.7%,但是你希望他年年都像2020年一样50几个点的收益,我觉得基本面量化这种比较分散的投资方式很难提供。
北落的师门
最后想跟曲总聊聊怎么走上量化投资这条路,以及您是怎么看待量化和主动投资这两者之间的关系?
曲径
我觉得验证的过程就是量化,只不过大家给他起了不同的名字,我喜欢用历史的数据来验证我的各种逻辑,所以最后选择量化肯定是必然之路。后来我发现很多系统化投资也是这个方式,比如美国的达利奥就是非常典型的系统化投资,他讲的《原则》大家都看过,他用历史上反复出现的逻辑去印证他对一个行业、一个国家的观点,对现在我们所在历史周期的观点。他最近的这本书是用过去1500年中国的变化来印证中国和美国之间的关系。
所以我是喜欢用数据的办法验证自己想的一些事情,最后发现用在投资当中也非常好。因为市场的非有效性主要来自于交易者情绪的波动,就跟查理芒格说获得成功最大的优点是理性一样。现在A股也好,美股也好,能产生这么大的波动,提供各种各样的交易机会,最后能有阿尔法其实就是因为市场的非理性,而量化优点就是理性。
北落的师门
关于量化投资给小伙伴推荐一本书?
曲径
我觉得大家可以看看《征服市场的人:西蒙斯传》,然后达利奥的三本书其实都很值得看,因为他是一个很系统化思考市场的人,从中观、微观以及长历史的宏观,都在系统化思考市场的情况。
基金有风险,投资需谨慎。以上内容仅供参考,不预示未来表现,也不作为任何投资建议。其中的观点和预测仅代表当时观点,今后可能发生改变。未经同意请勿引用或转载。基金管理人依照恪尽职守、诚实信用、谨慎勤勉的原则管理和运用基金资产,但不保证本基金一定盈利,也不保证最低收益。基金的过往业绩并不预示其未来表现,基金管理人管理的其他基金的业绩并不构成对本基金业绩表现的保证。以上材料仅供参考,未经同意请勿引用或转载,其中的观点和预测仅代表当时观点,今后可能发生改变。投资者在做出投资决策之前,请仔细阅读基金合同、基金招募说明书和基金产品资料概要等产品法律文件和风险揭示书,充分认识本基金的风险收益特征和产品特性,认真考虑本基金存在的各项风险因素,并根据自身的投资目的、投资期限、投资经验、资产状况等因素充分考虑自身的风险承受能力,在了解产品情况及销售适当性意见的基础上,理性判断并谨慎做出投资决策。