[不负责翻译] 如何让假数据看起来更有意义
不负责翻译,如有错误概不负责,很多统计概率知识可能翻译有误。
原文出处:http://danbirken.com/statistics/2013/11/19/ways-to-make-fake-data-look-meaningful.html
一.千万不要透露原始数据
如果你想用你的数据去忽悠别人,只要把结论告诉他们就行了,千万不要把你的原始数据也给他们。如果说你的原始数据需要一定的访问权限或者包含一些商业机密那就更好了。当你试图忽悠别人的时候,你最不愿意看到就是允许别人去分析甚至质疑你的结论。
二. 不要透露你的分析方法
数据的来源是哪?你是如何收集数据的?你是如何对数据进行采样的?当你遇到这些问题时,不管你怎么做的,都不要透露这些信息!如果你或者你的数据来源在收集或者采样的时候犯了一些错误,那么有一些讨厌的人就会开始质疑你的结论。你尽管放心的什么都不要透露,人们会假设你知道你在干什么的。
三. 不要包含置信区间
置信区间很容易让人觉得你的数据包含一些潜在的不确定性,这很可能会影响你结论的坚定性。
下面那个听上去更好?
- 这简单的改动带来了50%的增长。
- 这简单的改动带来了-12% 至96%的增长。
你的目标是让你的数据听上去富有意义,给出一个确定的数字,即使是错的。
四. 多用图表
人类喜欢模式匹配。如果你用图形化的方式展示你的数据,人们往往会直接把它当作最终结论而不去过多的思考到底是不是真实的。上图是十个美国的城市,给它们赋一些随机值 然后进行了排序。如果你在我没有告诉你之前看这张图,你可能可以从中找到一些有意义的规律。
很明显在图表中要遵循原则3,不要在你的图表中放置信区间的值。
五. 不要质疑你自己的数据
你可能是你自己最大的敌人。有时候你的数据会让你怀疑你的方法和分析。这里有一些小提示,当你遇到这种情况的时候可以帮助你:
该做:推敲你的方法知道它的结论是你想要得或者是你觉得人们会相信的。
不该做:不要将你分析的一些潜在的注意事项列出来,这只会疑惑你的读者。
该做:你要表现的像在完成分析之前就知道分析的结果,不要让自己看上去像事后诸葛亮。
不该做:不要质疑回归分析的结果,它们肯定是对的。
脚注:
1: 这是一个二项式比率置信区间,它和连续数据的置信区间有一点不同。但是,我认为由于A/B测试在创业人群中的流行,它和创业人群很有关系。数据来自abba,它是一个开源的A/B测试工具(透露一下,我曾经在开发这个工具的公司工作过),链接页面里解释了abba使用的方法。
后记
如果你没领会到这是一个玩笑,我不建议去做上面的这些事情。我建议的是,当你作为一个消费别人提供的信息时,你要报着一个怀疑的心态去看数据,并且看看是不是用了文章中的这些手法或者其他的手法。如果你是分析数据的人,请尊重你的读者,你应该提供必要的信息去验证你自己的结论。
当你遇到一些信息试图去表现的更吸引人而不是更加准确的时候,你就要提高警惕了。讲一个有趣而又没有破绽的故事的最好办法就是使用假数据。“假”对于你来说可能是一个很重的词,但是我认为用这个词很公平。不管统计数据在数学上是否严谨,不管是出于无知还是出于恶意,假的就是假的。
网络上流行一个短语,叫做“无图无真相”。这个短语通常出现在一些没有证据的惊人言论的评论上。这个回复看上去很无礼,但是那些给出惊人言论却又不给出证据的人更无礼。因此,我提倡用一个类似的短语,“无原数据无真相”,作为那些给出惊人分析却不给出必要的统计数据分析的回复。
»Hacker news上的讨论。