Standard deviation

 

 

Bessel’s correction

贝塞尔校正

 

 

为什么样本方差(sample variance)的分母是 n-1?

非常好的问题,探索这个问题的答案,不仅能更好的了解自己和这个世界,还能避免被征收偏差税

”Bias Tax

先说结论,样本标准差的分母写成n-1,是为了对自由度进行校正,这叫贝塞尔校正(Bessel’s Correction)[1]。注意这个贝塞尔不是贝塞尔曲线

(Bézier curve)那个贝塞尔。

为了让中学水平的读者就能理解,我尽量不用公式,用浅显的语言和生活中的案例,来叙述这个问题的来龙去脉。这算是对其他答案的补充,也许看完后,再看其他高手的回答就没那么难了。

在统计领域,你经常会看到,为了减少干扰数据对结论的影响,数学家设计了大量的技术手段来对数据进行校正。

先看一篇我改编的故事《比尔盖茨冲进酒吧

》:

一天晚上,小镇酒吧里坐着9个人,大家都是小镇上的工薪族,年薪的平均值在5万美元左右。

从上面的数据和图表,你可以看出50000美元这个平均值,比较准确的体现了9个人的收入水平。

正在此时,比尔盖茨急匆匆的走进酒吧,冲向厕所……

假如比尔盖茨的年薪是10亿美元,在他上厕所的时间里,另外9个人啥也没做,加上比尔盖茨,10个人的平均年薪平均值一下子从5万爆涨到1亿美元。

如图,相比之下,和比尔盖茨相比,9人的年薪太渣,完全看不出高度,像二向箔

一样薄。

而当比尔盖茨离开后,他们还是啥也没做,平均年薪却暴跌了近1亿美元。

9人抱头哭死在厕所……

剧终^_^

 

在这个例子里,比尔盖茨就是一个干扰数据,因为他的存在,让平均值的计算并不能体现酒吧里工薪族的真实平均水平,9人的平均年薪无缘无故的涨到了1亿。当然这个数也无法体现比尔盖茨的真实收入水平,因为他缩水到了1亿。

那统计学家应该怎么办呢?

在统计上,把比尔盖茨这种干扰数据称为异常值(Outlier)。

应对这种异常值,最简单的方法就是排除掉它们。在计算平均值时把比尔盖茨排除掉,就无法干扰平均值了。(当然实际应用比较复杂,排除异常值需要谨慎,不能随意的排除)

 

排除法这种技术手段也经常应用在比赛打分上。

我们知道裁判打分的主观性非常大,为了减少单个教练的影响,比赛通常会安排多个裁判一起给选手打分,然后再取一个平均值。

但实际上在求平均值时,还会再去掉最高分和最低分,然后对剩下的分数计算平均值。

这种排除最高/低分的手段也是为了消除干扰,因为最高分和最低分对平均值的影响比较大,会大幅偏离真实的水平。

例如,下面是10个裁判的打分

上图中最高分把选手的平均值拉高了0.60分,你可能会说,这点分数不算啥,应该影响不大。

但在实际的比赛中,选手的差距通常非常的小,0.1分都会对选手的排名产生显著的影响。

为了尽可能消除其干扰,得到一个相对客观的平均值,通常在计算平均值时,会排除掉最低分和最高分,这样算出来的平均值叫裁剪平均值(Truncated mean)。

 

比尔盖茨和去掉最高/低分的这两个例子,都是为了说明统计领域的校正技术,用排除法来消除掉干扰数据的影响。

 

现在你也可能意识到了,在样本方差的计算上,分母使用(n-1),而不是n,也是一种排除法来消除干扰的技术手段。

 

为什么要减去1,这个1代表的是哪个数?

这个减去的1,不特指任何一个数,1代表那个失去“独立客观”的维度

 

原文地址:http://www.cnblogs.com/chucklu/p/16884028.html

1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长! 2. 分享目的仅供大家学习和交流,请务用于商业用途! 3. 如果你也有好源码或者教程,可以到用户中心发布,分享有积分奖励和额外收入! 4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解! 5. 如有链接无法下载、失效或广告,请联系管理员处理! 6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需! 7. 如遇到加密压缩包,默认解压密码为"gltf",如遇到无法解压的请联系管理员! 8. 因为资源和程序源码均为可复制品,所以不支持任何理由的退款兑现,请斟酌后支付下载 声明:如果标题没有注明"已测试"或者"测试可用"等字样的资源源码均未经过站长测试.特别注意没有标注的源码不保证任何可用性