阴谋论还是海市蜃楼？经济数据到底有多不靠谱-虎嗅网

本文来自微信公众号：白话金融危机史（ID：Twilight_of_Sunrise），题图来自：IC photo

最近美国的资本市场可谓是处于癫狂。在经济停摆社会矛盾风云变幻的同时，美股已然收复了2020年的绝大部分失地，纳斯达克甚至创出新高。从2020年2月19日最高点到3月23日的低点美股在33天内跌落了近33%，经历了史上最快的熊市，我戏称为美股失恋的33天。之后在投资客一片惊呼中美股一骑绝尘，很快的就走出了失恋的阴影，又迅速创下了史上最快的牛市。

金融市场先于经济基本面开始的深V型反转，是春江水暖的先知还是终将破灭的海市蜃楼，就要看美国经济是否真的能如股市所预计的迅速反弹了。而美国刚出炉的意外新增就业无疑是为经济的反弹画上了一个浓眉大眼的对号。

先说这个数字有多意外吧，此前美国在疫情中被广泛报道了近4000万人的失业和4月份高达14.7%的失业率，美国很多媒体预测5月将会有800到900万新增失业人口，失业率达到1929年大萧条以来最高的20%，而且很快就有可能会超过1933年大萧条顶峰时期每4个美国劳动力就有1个失业的25%。

出乎很多人预料的，5月份的数据一出来，非但没有新增800万失业，反而是新增了250万就业，是美国有记录以来的最大单月新增就业。在政府部门大幅减少了58万就业的情况下，休闲旅店建筑等部门都大规模增加了就业。

5月份13.3%的失业率也在疫情后首次出现了下降的趋势。

可想而知，这种通常在电影里才会出现的大反转的情节立刻刺激了各方的神经。Trump政府和国会喜上眉梢自不必说，都纷纷宣称救助法案起到了效果。Trump在玫瑰园更是高兴的说，远超预期的数字说明经济恢复如同做上了火箭，甚至比V型反转还要好。

股市更是被封为先知，火上浇油，为后面几天更为疯狂的上涨开了绿色通道。

而质疑的声浪也迅速开始传来，认为实在是好到不可置信，It is too good to be true。首先的质疑来自诺贝尔经济学奖得主保罗·克鲁格曼(Paul Krugman)。克鲁格曼在Twitter上公开怀疑美国的统计局（Bureau of Labor Statistics (BLS)）有可能被Trump政府做了某种工作才做出这么亮眼的数据，阴谋论呼之欲出。

以克鲁格曼的诺奖身份和影响力亲自下场开撕，此言一出自然是火花四溅。要知道他质疑的可不只是一个经济学的统计数字，甚至也不只是他一直以来都在批评的Trump政府，他质疑的是整个生产这个经济统计数字的机构和整个流程，而这个机构应该是无党派的，这个流程应该是专业的。

克鲁格曼的质疑本身引来了更加排山倒海般的质疑，迫使他在一小时后便不得出面道歉，并承认说开始相信增加的就业是真实的。但他同时又不肯罢休的立刻补充说，即便有新增就业也不代表美国经济走出了黑森林，一旦政府提供的补贴过期后，经济将会重回地狱。

质疑的人远不只是克鲁格曼，比如2004年参加过民主党总统竞选的前Vermont州长Howard Dean也发推说“You should ALWAYS assume trump lies”，必须要时刻假设Trump会撒谎。他同时质疑统计局不是中立机构，并凭直觉认为真实的失业率数据应该是在17%~19%之间。

被饱受质疑的统计局专家们当然就要出来走两步了。主流媒体很快采访跟进报道，首先当然是否定了阴谋论，受访的经济学家认为统计局没有被运作，并不存在政治影响和违规操纵的问题。统计局的局长William Beach（BLS Commissioner）在接受华盛顿邮报采访时说这些指控不仅是荒谬的，而且透露出对统计局工作的巨大无知。

如果不是阴谋论，那怎么解释此前预测出新增800万失业的经济学家错的离谱了呢？华盛顿邮报专门指出这位统计局长是Trump总统在2019年任命的，意有所指，而且统计局的报告里还有一条不同寻常又耐人寻味的说明。这条不同寻常的说明指出，因为有可能有数据分类的误差，真实的失业率有可能其实是在16.3%，比13.3%整整高3个百分点，耐人寻味吧。

这就奇怪了，为什么统计局一方面正式发布13.3%的失业率，同时又说有失业率可能是16.3%呢，这究竟是什么操作？

问题出现在该怎么界定一个人是失业还是就业上。理论上一个人要么根本不在就业市场，只要在就业市场上就要么失业，要么就业。可惜的是，理论总是过于简单化的，真实的世界却无比复杂。就好像我们小时候学牛顿物理，一句假设没有摩擦就可以省去了多少有关现实的讨论，而没有摩擦的假设是不可能把火箭发到太空的。我们现在很多经济学家也常常会像中学物理一样，一句假设经济人都是理性的假设市场都是有效的，然后就可以在这个沙滩上用高明的数学建成一座座美丽的沙塔。

这就要说到这美国失业率的数字究竟是怎么得来的了。听起来高大上的全国失业率，其实并不是真正的全国失业率，而是一个通过小样本来估计出来的。有多小呢，在全美1亿2858万个家庭中抽样6万个家庭。这就有点像人口普查和总统大选的政治民调，全国人口普查耗时费力通常10年才做一次，大选的政治民调也不可能问到每一个选民，这些平时只能都做小样本的抽样调查。既然是小样本抽样自然就会有误差，怎么少抽样又能低误差就是统计学的大学问了。

咱们用美国大选的政治民调举个例子大家就能知道，这种抽样调查有可能错的有多离谱。现在说到民调大家熟悉的是盖洛普（Gallup），想当初盖洛普还没起家的时候，美国做大选民调的老大哥是读者文摘（The Literary Digest），从1916年开始20年间从未失手。1936年正值大选之年，大萧条期间民不聊生，读者文摘铆足了劲发放了1000万的调查问卷后预测共和党的候选人Alfred Landon将会取得压倒性的胜利战胜在任的罗斯福总统。刚起步的盖洛普则只发放了区区5万份调查就预测罗斯福总统将会完胜。结果当然是罗斯福总统大胜连任成功，盖洛普上位，读者文摘从此退出历史舞台。

问题出在读者文摘那1000万的样本。他们发放的对象是大萧条期间还订得起报纸，养得起汽车和电话的相对富裕的人群，而回复调查的又通常是有强烈政治倾向的，这样的调查远不如盖洛普更为随机选择的5万人无偏小样本调查来的准确。

以1936年的大选为界，抽样统计学进入了一个新纪元，方法越来越复杂先进，误差也被认为限制在很小的范围内。结果风水轮流转，80年后的2016年又是一个大选年，这次大多数的民调显示希拉里将会以90%以上的比率绝对压倒性的战胜政坛新人Trump，结果大家都知道了，令民调大跌眼镜的事情发生了，民调的预测在80年后再一次错的离谱。为什么呢？其实还是一样的道理，忽视了偏远地区人民的样本是有偏差的，而且很多人不愿或不敢表达真实的意见，使得搜集上来的样本只是海市蜃楼罢了。

回到咱们说的失业率的调查上来。通常这些抽样很多是要当面访谈的，但是疫情期间一切从简就都是电话解决了。电话中得到的信息更容易出现错误，同时这6万个家庭只有67%的回复率，大大低于平时的83%左右的回复率。疫情期间居家令下，那些不接电话的家庭是忙着居家办公呢，还是经济太过艰难已经断了电话线呢？这些困难都无疑加大了通过小样本进行估计的误差。

至于统计局特别说明里提到的数据分类误差，指的是统计局把在劳动市场上又目前暂时没有工作的人归成了两类：一类是被暂时解雇了，这些人算是失业人口；另一类人被暂时离职了但并没有被解雇，这些人还算是就业人口。疫情带来的经济突然停摆让很多人是否能够回到原来的工作非常模糊。比如回家待业的厨师和幼儿园老师，他们应该是算失业呢还是应该算暂时离职呢？CNBC报道，超过80%的失业人口认为自己可以回到原来的工作。

统计局在3月的报告里发现被归为暂时离职的人员飙升，从而发现有可能是电话访问的人员错误的分类了调查对象，很多失业人口被误认为暂时离职。4月的调查人员被严格训练，但是还是有大量人口被认为是错误归类的。5月份统计局对调查人员的训练更为严格，很多此前的错误应该被纠正了，也就是大量此前被划为暂时离职的人员重新被归为失业，这也是为什么很多经济学家认为5月失业人口将会飙升的一个重要原因。

统计局认为错误减少了，但依然存在。至于有多少人被错误分类了，统计局应该是用了某一种算法调整出了一个误差百分比，比如误差统计局说5月份的分类误差通过小样本的放大效应大概影响到100万人的归类。所以我们说4月份的美国失业率的14.7%，其实还有5%的分类误差也就是真实的失业率可能是19.7%。

而5月份的美国失业率的13.3%，加上3%的分类误差是16.3%。如果比较不算误差的14.7%和13.3%，美国的失业率下降了1.4%，如果比较计算了误差的19.7%和16.3%，美国的失业率下降了3.4%。所以克鲁格曼在研究之后也承认美国就业市场确实是得到改善了的。当然即便如此，目前仍然每7个美国劳动人口就有一个失业，这250万新增就业的改进在此前巨大的失业人口面前仍然只是杯水车薪。

那克鲁格曼这个诺奖级别的经济学家怎么可能预测的这么离谱呢？除了此前提到的很多人认为对错误归类的纠偏会增加大量失业人口外，还要说到经济学家是怎么预测的了。预测是依赖很多的先导指标和模型假设，而这些可能这次都是错的。

比如一个重要的先导指标是首次申请失业的人数。JP Morgan的首席全球战略经济学家David Kelly博士就指出，此前被广泛报道的美国有4000万人申请失业，可同期美国领取工资的人数下降才2400万，失业人口上升2550万。这说明首次申请失业人数目前是一个非常不准确的先导指标，因为很多并不符合条件的人也在政府相对宽松丰厚的失业救助下申请失业救助，所以相当一部分申请并没有被批准，而且还有很多人多次重复申请。另外经济学家广泛使用预测企业自然消亡和创业的模型（Birth-Death Model）在疫情之下完全失效。给予错误的假设和错误的模型，无论用多高级的计算机显然都不可能准确预测。

其实追究这个失业率里的分类误差还是丢了西瓜捡芝麻，更大的问题可能其实根本不在分类误差上。失业率是失业人口除以总的就业市场上的劳动力人口。而有些人更本不会出现在这个公式里，这就是那些不在就业市场上的人了。这个貌似简单明了，不在就业市场不就是小孩和老人么。实际上除了未成年的孩子和退休的老人，还有16岁以上的学生军人和犯人，不想工作的和放弃找工作的人。

前几类都还好，这个放弃找工作的人一直饱受争议，因为很多人有可能是劳动年龄又想找工作的，但因为长找不到工作丧失了信心而放弃了努力。历届政府都想把失业率算的好看一点，所以在1994年克林顿政府时期，就决定这部分失望的就业者（long-term discouraged workers）从此不再被记入劳动力市场了。这些人或许想工作却因为不再积极找工作而不被算作就业市场的人，从而不算在失业人口里面。

还有些人只是短期内找不到工作，或者实在找不到全职的工作而不得不打些零工，这些人被称为短期失望的就业者（short-term discouraged workers）和准待业工人（marginally attached workers），只要是没有在最近4周内寻找工作也不计入劳动力市场计算失业率，成为阴影下的失业人口。比如在3月美国劳动力市场人数下降了160万，4月下降了640万，这巨大的变动显然不能用退休人口来解释。

美国有一个网站叫Shadow Government Statistics, 专门计算如果把这些阴影下的失业人口算进来，美国的失业率到底是多少。从他们的统计可以看到，如果算上这些阴影下的失业，美国目前的失业率是在35%左右。当然这种计算也是有问题的，比如的确有人是自愿不工作，也有越来越多的人选择自由职业或非全职的生活方式，所以这种计算很可能高估了失业率，但我们可以把统计局的数字看成是美国失业率的下限，把这个阴影下的失业数字看成是失业率的上限，真实的失业率应该在两者之间。

还有一个数字可以和阴影下的失业率相印证来看，那就是就业人口参与率（Civilian labor force participation rate）。2008年金融危机前美国有近66%的处于劳动年龄的人口是就业的，2008年危机后大量人口长期游离于劳动力市场之外没有回来。阴影下的失业率居高不下的同时是就业人口参与率的下滑，这里面有着非常复杂的社会问题，包括美国制造业的流失和美国版的鸦片战争。

近些年短期和长期游离于劳动力市场的人口都渐渐开始减少，很多人终于走出2008年金融危机的阴影慢慢找到了全职的工作，所以美国的劳动力参与率近几年来也开始缓慢上升，相对应的是各种族的失业率在2020年初纷纷下降到近1969年以来的最低点。结果疫情袭来，一棒子被打回了解放前，这里面引发的问题就是美国当前很多社会矛盾的底色了。

我们必须要说的是，虽然有这么多的问题，美国的经济统计数字仍然还是全世界最公开透明的也可能是最准确的，比如虽然很多人并不了解，媒体也少有关注，但至少这些失望的就业者人数还是被统计和公布的。

还必须要说到就是，咱们今天只是用失业率作为一个解剖的小麻雀而已，事实上经济统计数字里的问题远不止于此。比如用来度量通胀的消费者物价指数CPI是怎么构建的，怎么采集的，又怎么改变的就有数量众多的陷阱。再比如号称华尔街上最重要的数字的伦敦同业拆借利率LIBOR，联动着全球上万亿美元的资产价格却居然在长达近20年的时间内是被操纵的，而且在丑闻曝光后全世界说好了要换掉它的近10年后却仍然尾大不掉，美联储近来都不得不表态让步继续使用LIBOR。

金融是价值和信用驱动的，判断价值和信用是需要快速准确的信息和数据的，快速准确的信息和数据的是需要快速准确的经济指标的，所以这些经济指标的构建和底层逻辑影响的是整个金融市场，对这些经济指标的任何手脚也会模糊和改变市场。这些指标背后是金钱和利益，所以我们要尽量理解这些经济指标背后那些有关于人的逻辑。不论你是金融市场上的前浪还是后浪，观察市场的人要常常唱起小虎队的歌：把这许多的数据串一串儿，切成片儿，剁成馅儿，再撒上些胡椒面，辣椒面，咸盐面……

本文来自微信公众号：白话金融危机史（ID：Twilight_of_Sunrise）