神秘的本福特定律.docx
- 文档编号:244742
- 上传时间:2023-04-28
- 格式:DOCX
- 页数:11
- 大小:259.18KB
神秘的本福特定律.docx
《神秘的本福特定律.docx》由会员分享,可在线阅读,更多相关《神秘的本福特定律.docx(11页珍藏版)》请在冰点文库上搜索。
神秘的本福特定律
神秘的本福特定律
physixfan2010-10-3121:
25
统计一下世界上237个国家的人口数量,你觉得其中以1开头的数会占多大比例,而以9开头的数又占多大比例呢?
如果你的回答是都为1/9,恭喜你你是正常人,但是事实却不是如此:
以1开头的数惊人的占到了27%,而以9开头的数却只占5%。
下图可以很形象的展示出在各国人口数量问题上,以各个数字开头的数占了多大的比例(图片来自维基百科)。
为什么会相差这么大呢?
这正是神秘的本福特定律在起作用。
本福特定律,也称为本福德法则,说明一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成,接近期望值1/9的3倍,推广来说,越大的数字,以它为首几位的数出现的机率就越低;精确地数学表述为:
在b进位制中,以数n起头的数出现的机率为logb(n+1)−logb(n)。
在十进制中,首位数字出现的概率为:
d
1
2
3
4
5
6
7
8
9
p
30.1%
17.6%
12.5%
9.7%
7.9%
6.7%
5.8%
5.1%
4.6%
这个定律的发现,据说是因为本福特在翻对数表的时候发现前面几页被翻得很黑很破烂,越往后越颜色越浅。
由此他想到会不会是1开头的数字就是比其他数多,他统计了一下发现果然如此。
其实这个对数表的事情真假难辨了,就像是牛顿说自己是被苹果砸到了头才发现的万有引力定律一样,只要最后的定律有用就可以了。
首先说明一下本福特定律的适用范围
这个定律是一个非常神奇的定律,它的适用范围异常的广泛,几乎所有日常生活中没有人为规则的统计数据都满足这个定律。
比如说世界各国人口数量、各国国土面积、账本、物理化学常数、数学物理课本后面的答案、放射性半衰期等等数据居然都符合本福特定律。
值得一提的是,科学家还发现,统计物理的三个重要分布,Boltzmann-Gibbs分布,Bose-Einstein分布,Fermi-Dirac分布,也基本上满足Benford定律!
(来源:
李淼的博客)
其次这个定律毕竟还是有适用范围的
第一,这些数据必须跨度足够大,必须横跨好几个数量级才能产生这个结果。
第二,有人为规则的数据就不满足次定律,比如说手机号码、身份证号、发票编号等数据,明显不满足这种对数分布律。
也就是说,本福特定律正是没有任何限制才显露出来的定律,越是对数据的产生有人为限制,越是不满足该定律。
第三,数据不能经过人为修饰,随便人为修改的数据一般就不满足本福特定律了,比如当年著名的安然公司造假案,他们的账本就没有满足本福特定律,因此这个神秘的定律甚至可以用来判别是否财务造假。
那么到底该如何理解这个神秘的定律呢?
为何自然产生的数据会满足这么奇特的一个定律,而不是均匀分布呢?
本福特定律产生的根源,就在于指数增长。
这幅图可以直观的显示,如果一个变量随时间成指数增长的话,那么这个变量开头的数字随着时间的变化就应该是如下图:
(横轴代表时间,纵轴代表那个变量)
显然,在某时刻你得到它以1开头的概率要大于9开头。
而这是只取一个值的情况,如果是取大量的数据的话,在某时刻你观察到他以1开头的数据数量就大于以9开头的数量了。
而指数增长的形式在自然界是十分普遍的,只要一个变量的增长率和他的大小成正比,结果就会是指数增长。
比如说人类科技发展的速度大致和已有的科技成果成正比,所以人类的科技发展就是个指数增长;人口增长率会和已存在人口数成正比,因此没有资源限制的人口增长也是指数增长。
指数增长是自然中极为普遍的一种变化规律,而这种变化规律可以直接导致本福特定律。
另外一种直观的解释(来自维基百科)是这样的
从数数目来说,顺序从1开始数,1,2,3,…,9,从这点终结的话,所有数起首的机会似乎相同,但9之后的两位数10至19,以1起首的数又大大抛离了其他数了。
而下一堆9起首的数出现之前,必然会经过一堆以2,3,4,…,8起首的数。
若果这样数法有个终结点,以1起首的数的出现率一般都比9大。
就以一个城市的所有门牌号为例,有的街道门牌号可能在100多就结束了,有的在500多结束,有的在900多结束。
注意到500多结束那条街一定包含了1、10+和100~199这些1开头的门牌号,而不包含9开头的百位数,只包含9及90+的以9开头的数,这样一来明显以1打头的就多于9打头的了。
然后对整个城市的所有街道做一个综合,最终就满足本福特定律了。
以上只是直观的理解,如果想深究它的根本原理,可以参见它的证明
Hill,T.P.“AStatisticalDerivationoftheSignificant-DigitLaw.”Stat.Sci.10,354-363,1996.。
另外,值得一提的是,本福特定律满足尺度不不变性,即如果我们换一套单位制,本福特定律仍然成立。
其实,这也可以作为大自然产生的统计数据满足该定律的一个解释:
如果我们把原来的单位是米的统计数据换一个单位,例如换成英尺或者公尺,那么统计数据的分布应当不变。
而唯一满足这种尺度不变性的分布,应当是某种对数分布,也就是本文的主角本福特定律。
直觉,到底管用不管用?
賴以威2014-01-0311:
37
智利插画家阿尔贝托•蒙特(AlbertoMontt)的作品
“应该是这样吧”。
许多时候我们遇到不懂的事情,常习惯就这么歪头两秒钟,然后,彷佛答案卡在脑袋里面一样,摇一摇,答案噗通一声就掉出来了。
有人称这是直觉。
然而,很遗憾地,大多数人的直觉都不是很准,不然就不会那么多人在彩票选号时面带微笑,还善良地想着要捐出一半头彩。
要是理性点,应该会很忧心忡忡地想着
50元花下去,中三码的概率仅有1.78%,好低。
六码全中的头彩概率更是低到7.15亿分之一,比每天车祸致死的概率5.25亿分之一还低,唉。
就算不讲容易让人不理性的彩票,直觉在许多时候也经不起数学的检验。
更正确一点的说法是,直觉本来就不大准,只是这世界并没有太多事情能搞清楚对错,所以不容易察觉到直觉到底有多不准。
好比你觉得隔壁同学暗恋你,因为她下课常问你要不要一起去商店,但事实上她只是单纯想找人陪,可是在告白之前,你无法确认这件事情的真相。
更可悲的是,就算告白成功了,你还是无法确认她是否真的爱你。
听不懂吗?
没关系,再长大一点就懂了。
今天,我们藉由简单的数学统计,让大家实际看看,直觉跟事实间的差距,恐怕比台湾蓝绿两党之间的差距还大。
后者至少还有“无能”、“贪污”、“让老百姓气到高血压”等等诸多共同点…嗯,他们其实蛮像的,我似乎举错例子了。
直觉vs.数学
翻开存折,看看最左边的数字,将这个数字称为“首位数”,一百多万的首位数是1,六千多元的首位数是6,八十几块的首位数即是8。
现在,请用直觉判断,全台湾两千三百万人的存款金额首位数,1~9各个数字出现的概率各自是多少呢?
均匀分布,每个数字出现的概率皆是1/9。
许多人的直觉应该此刻在脑海里吶喊着这个答案,还带点不屑。
要是顺从直觉,按照这个逻辑继续推理下去,使用欧元的人的存款金额首位数,日本人的日币存款金额首位数,每个数字出现的概率应该也都是1/9的均匀分布。
没理由这项统计数字在台湾是均匀分布,到欧洲或日本就会改变,大家理当都该一样。
现在,当我们假设有9个人,户头里各自有100、200…900元新台币,符合均匀分布。
要是银行忽然将他们的存款改以日币或欧元计算,会得到下表。
可以看见,首位数1从出现一次,大幅增加到三与四次,首位数9则消失在表格中。
考虑更一般的状况,可以得到下面的统计分析图。
当台币换算成欧元或日币时,首位数数字小的出现概率都比较高。
至此,可以宣告直觉失败,输给了所谓的“本福特定律Benford’sLaw”:
以自然形式出的数字,首位数是1的概率约30%,2的概率是17.6%,依序递减,首位数是8与9的概率各自仅有5.1%与4.6%。
本福特定律是哪招
要解释这种不直觉的递减现象,我们得先提一个生活中的例子。
想象一条长条状的蛋糕,蛋糕上不同区域,有不同的装饰:
有些地方是草莓、有些地方是樱桃、还有些地方是肉桂跟大蒜。
要是有四人想分这条蛋糕,而且每种装饰都想吃到,最常见的作法,就是先将蛋糕由上往下,切成许多片,每一片的大小符合每个人能拿到的比例,切完后依序1、2、3、4、1、2、3、4…等分。
每个人再根据自己的编号,周期性地挑出属于自己的蛋糕。
如同下图。
上图就是其中一人的切法。
在每隔一段距离,切下等宽的一部份。
可以确保每个人拿到他该拿到的比例,且各种装饰都能拿到。
我们称这种为“理想蛋糕分法”。
回到首位数的问题。
要是统计全台湾的人银行存款,可以画出存款的统计分布图,我们用下面这张示意图表示。
存款首位数为1的区域我们用紫色表示。
要是将整个曲线想成一条蛋糕,切下的紫色区域起先是一条细细的“1”,过了2-9后,再来一块粗一点的“10-19”,这次得隔久一点,过了0-99,才会再出现更粗的“10-19”。
然后,得一直等到“1000-1999”。
切下的区域分别是1、10、100、1000……切的间隔是8、80、800……。
换句话说,依据不同首位数的蛋糕切法,在不同间隔间,切下大小不同的面积,不是刚才说的“理想蛋糕分法”。
可能,落在300-500的樱桃就这么没了。
不过,要是将x轴的金额取对数(log),就会得到下面这张图。
方才所说的“理想蛋糕分法”——等间隔切下同样大小的区域,在此重现了。
因为是等间隔,不同区域的装饰都能拿到,以取样的角度来,就是取下来的部分能够充分反映原来曲线的特性。
有趣的是,在对数转换后,首位数为1切下来的面积所占比例是log102-log101=log2-30%,首位数是2的比例则是log103-log102=log10(3/2)-17.6%,归纳出首位数为x时,所占比例为log10(1+1/x)。
这才是真正的首位数分布。
回到刚刚不同币值的问题,如果假设新台币的存款首位数分布是依据本福特定律时,换算成欧元跟日币后,可以得到下图。
可以看见,换算到不同货币后,趋势依然相似,大致依然符合本福特定律。
终于,我们看到log离家出走,离开了数学课本。
数学界的捉虫达人,本福特定律
只要是自然产生的数据,且数据涵盖范围很大,首位数分布即会符合本福特定律。
因此,本福特定律相当具有实际用途。
好比,统计公司一年的各种报账款项,便会看见本福特定律的存在。
政府或会计师即可反过来利用本福特定律,审核公司报账是否诚实,如果不符合本福特定律,可能就有问题了。
奈何我无法拿各级政府,或首长特别费的资料实际测试一下本福特定律的威力(也怕测出来发现不符合,大家反而会说“这不是理所当然吗”),只好拿2012“总统”大选各乡镇的投票结果来看:
结果相当符合本福特定律,这告诉我们,要么“总统”大选没作票,不然就是作票的人精通本福特定律。
从一开始就说,别相信直觉了嘛。
参考文献
R.M.Fewster,“AsimpleexplanationofBenford’slaw,”theAmericanStatistician,vol.63,no.1,pp.26-32,2009,Nov.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 神秘 福特 定律