处于大数据时代,应该具备哪些思维?
对于身处大数据时代的我们来说,统计学越来走近我们,当我们在思考一个问题时,要尽量避免因为自己的无知,提出一些低级的问题来。譬如一些极其低级的,不符合统计学常识的错误。具体有哪些错误,后面我会提到。如果提问者懂一些统计学的常识,很多问题根本就不应该被提出来。要避免犯蠢,提出合理的科学的问题,就应该懂一些基本的统计常识。以下内容,学过数学/统计学/计量经济学的同学,应该知道我在说什么。如果你不知道,那请你回去面壁思过一下。 样本偏差 人们习惯通过很少的观察值,就得出结论。这样的结论,往往就存在样本不足导致的偏差。 比如,你说吸烟有害健康,劝身边人戒烟。烟民们常用的借口是这样的: 你看隔壁王大爷,都九十岁了,抽烟抽了一辈子,照样健健康康的。张二蛋,烟酒不沾,三十岁就归了西。所以呀,抽烟有害健康,都是扯淡骗人的! 比如,有人跟踪过每年的高考状元后来的职业发展路径,最终发现这些状元,绝大多数并没有成为人中龙凤,国之栋梁,于是他们得出结论: 高考状元最终将走向平庸,高考对筛选人才并没什么卵用! 再比如,几个清北毕业的人,上知乎回答了个问题,说自己清北毕业,也买不起学区房,甚至也在北京留不下来,于是就有人得出结论: 清北的学历不如学区房值钱! 以上的例子,统统犯了小样本偏差的统计错误。换句话说,考察的样本太少,根本不可能得出可靠的结论。 看吸烟是否有害健康,应该看的是整个烟民群体和非烟民群体的比较,光一个王大爷和张二蛋怎么能得出结论。 高考状元的容量加起来不过几百人,但非状元人数上千万,几千万人当中出现马云马化腾,当然更正常。 说清北毕业买不起房的,也只是发声的少数人,而那些闷声发大财的清北人,看到这样的结论,恐怕只会默默地骂一句SB。 说到样本偏差,就必须提到有名的「红球实验」。 假设有两个盒子:A和B. A盒:2/3的红球,1/3的蓝球。 B盒:2/3的蓝球,1/3的红球。 现在我们把两个盒子遮起来,从中随机抽取小球出来。换句话说,这个时候,你不知道哪个是A哪个是B,只知道盒子1和盒子2。 我们从盒子1当中抽取了4个红球和1个蓝球,一共5个。从盒子2当中,抽取了20个红球,10个蓝球,一共30个。也即是: 盒子1:4个红球,1个蓝球,共5个。 盒子2:20个红球,10个蓝球,共30个。 现在问,哪个盒子更有可能是A盒,是1还是2? 多数人的答案是1。因为1当中红球的概率是80%,而2当中只有67%。A盒当中的红球概率更高,所以1是A盒。 学过概率论的同学应该马上反应出来,这是一个典型的条件概率问题,用贝叶斯公式可以很容易计算: P(A|1)=P(A1)/P(1)=P(A1)/(P(A1)+P(B1))=0.89. P(A|2)=P(A2)/P(2)=P(A2)/(P(A2)+P(B2))=0.99. 看不懂公式的同学可以略过,你需要记住一点即可: 统计推断,样本量越大,越可靠。基于小样本的结论,往往都存在问题。 以后不要再很蠢地说,你看,名校毕业的 但答案恰恰相反,盒子2才更有可能是A盒。因为在更多的样本量下,它保证了红球的概率远高于蓝球。 也在北京买不起房,所以学历没什么卵用。 相关性 混淆相关和因果,不能建立多元相关思维模型,简直是人们犯蠢的重灾区! 因果的意思是,A的发生必然会导致B,B的发生必然以A的发生为前提。相关则不一定,仅仅可能是A,B同时发生了。 比如暴饮暴食导致胃痛,就是一种因果关系。吃太多胃承受不了,必然会痛。胃之所以会痛,就是因为你吃了太多东西进去(控制其他变量的前提下)。 但名校毕业和赚很多钱,这就不是因果关系。这只是一种相关关系,而且是一种多元的相关关系。 换句话说,赚钱这个事实,不仅和学校学历相关,还和很多其他因素相关,比如长相、行业、冒险精神等等。 现在明白我为什么说上面那些问题很蠢了吧。谁告诉你清北毕业就一定可以去投行?同理,谁告诉你,哈佛的学生就一定比咪蒙赚钱赚得多? 清北毕业和去投行,只是相关性,且只是相关因子当中的一个,同理,哈佛毕业和赚钱多,也是这个道理。 如果把一个结果称为Y,诸多和它相关的因素称为X,那么Y和X的关系应该是:Y=AX. 其中A=[a0,a1,a2...an], X=[x0,x1,x2…xn]’ 以上是一个最基本的多元相关模型。比如,赚钱是Y,那它对应的X,包括了学历、起始资本(家庭背景)、努力程度、长相,等等。 如果以多元相关模型来思考问题,根本就不可能提出为什么一个哈佛的还不如咪蒙赚得多这种愚蠢的问题。 明白了这一点,你也不会再提凭什么奶茶长得好看就可以搞定东哥,为什么美联储加息了股票反而上涨,名校毕业的不如技校毕业的赚得多,这一类愚蠢的问题了。 简单来说,记住一点:事情的发生,往往都是一个复杂系统里,多因素共同作用的结果。 凡事都尽量避免用单因素模型去解释。这是避免你变得很蠢的重要思维法宝。 控制变量 控制变量的意思是,控制了这个因素,来看其他因素对事物发生的影响。最直观的表达就是 “假设其他条件不变的情况下”,这种假设,就是很典型的一种控制变量的假设。 回到我们之前讨论的名校毕业挣钱不多的问题,名校毕业照样买不起学区房,很多人据此得出结论: 名校也没什么卵用,甚至上大学也没什么卵用,照样买不起房,还不如王小二开个煎饼摊子挣得多。 这个推理最大的问题就是控制变量的不可比。 你在对比名校毕业生和开早餐铺子的王小二时,隐含了一个极为重要的有关控制变量的假设: 除去学历这个因素,其他条件都是一样,且不变的。 但很显然,一个清北毕业生和没上过大学的王小二,除去学历的不同,在其他方面,也就是控制变量方面,也存在巨大的差异! 换个思路,不用横向对比,纵向来看,假设其他条件不变的情况下,一个清北毕业生,没有清北的学历,他会过得更好还是更惨? 这样的比较才是有意义的。 同理,也只有比较具有类似家庭背景,长相水平,努力程度的清北毕业生和一般学校甚至没上过大学的人,他们谁挣钱多,这样的比较才是有意义的。 英文当中有个很好的表达叫 Apple to Apple,就是比较对象要要一致。可惜我们大部分人做的都是Pear to Apple这样的比较,毫无意义。 再说一遍,我们考察单一变量对结果的影响时,一定要保持控制变量的不变且可比。不然这样比较得出的结论,毫无意义。 你不能因为天天撩妹的王思聪,比天天工作十六小时的投行民工,钱更多,就据此否认努力工作没有用。你也不能因为同学有个好爸爸,就否认平民家庭出身的人奋斗没有意义。 在考察努力这一变量对成功的影响上,你和王思聪的“控制变量相同”的假设并不成立。 反过来,就你自己而言,控制其他变量不变,你不努力和努力的结果差异,一下子就会清晰起来。这才是思考问题的正确方式。 不少反鸡汤人士认为,努力没什么用,家庭出身决定一切,先天条件决定一切,时代大势决定一切,这些论点,统统都是愚蠢的,也是错误的,因为他们忽略了控制变量的因素。 系统思维 统计常识除了以上三点,还有很多。比如假设检验,样本和母体的关系,统计一类和二类错误,置信水平等等,文章里没办法一一讲述。 但我认为,弄清本文的三个基本常识,已经可以帮你避免很多愚蠢的错误。这些常识不是相互孤立的,在考察问题的过程当中,常常会同时运用到它们。 比如还是说名校毕业生买房的问题。 首先要问,是不是真的清北毕业生就买不起学区房,这个样本到底有多大?是不是小样本偏差,或者幸存者偏差得出的这个结论? 其次我们要想,清北毕业生买不起学区房,是一件多么令人惊讶的事情吗?当然不是,因为挣钱这个事情,本身并不只和学历相关,它还和很多其他因素相关。 也因此,名校毕业的同学,也不要总觉得自己有什么了不起,你得清晰地意识到,收入水平和你的教育程度,并非因果关系。意识到这一点,能让你认清真相,接受现实,并更好得在其他方面去努力。 最后,因为其他方面的因素,比如家庭出身,比如行业影响,即使名校毕业真的也买不起房,你就要因此感到沮丧和否定名校教育带给你的价值了吗?当然不应该! 因为控制变量的思想告诉你,其他条件不变的情况下,你读不读名校,收入的差异还是非常显著的。 综合以上,我们在思考问题时,当尽量避免因为自己的无知,提出一些低级的问题来。 今天小编想和你聊聊的,是学好统计的现实好处。 第一,学会看问题,懂得数字的意义。 (编辑:ASP站长网) |