大数据在彩票预测和解决社会问题的用处

大数据在彩票预测和解决社会问题的用处

 

《最简单的科学决策法》书中提到有很多基于统计的判断决策,使用简单的几个指标就能做得很好,再上更多的数据也不能让判断更准确。 作者赛斯也举了个例子。一个烧红的炉子,你只要触碰一下就知道这东西危险不能碰;可是要想知道喝咖啡能不能导致头痛,你大概要喝上几千杯才能看出效果来。

 

从上面的结果看:明显的效应只要小数据就够了,不明显的效应才需要大数据。 但必须用大数据才能得出的结论,并不是不重要的结论。

 

彩票研究的核心算法本身只需要几个指标参数调整好就可以得出很好的预测结果,但要做到长期有效达到盈利的目标就需要大数据作为验证和回归测试,这样才能确保算法的参数不止是在某个范围内有效而是能够达到长期有效的平衡点。

网上很多各种公式算法都声称自己99%命中而且给出了几十期的验证数据,在这个数据范围内验证确实非常有效非常令人心动,但往往一放大到500期,一千期,一万期,十万期历史开奖去验证就失效了,就跟理论概率差不多,甚至比理论概率更低了。

大数定律是概率预测不能绕过的,算法只能调整参数取一个接近理论概率的平衡值,跳过一些低于平均概率的范围投注。

 

很多遗漏值在一千期内看已经达到很大了,比如遗漏了50期,直觉判断认为这个就是最大值了就是极值了,一旦达到45期开始投注应该很安全了可以加倍投注了,但往往一放大十万期的历史数据一验证超过50期遗漏的一大把,甚至超过100期遗漏的还有不少。

当你的维度太多而数据量太少的时候,你就容易发现这种假的强相关性。 实际上,如果你再用一组新的数据测试,你会发现那个变量根本不好使。

这个假相关性,会给人一个可预测的错觉。就连专业研究人员都可能会犯这样的错误。这就是所谓的:维度的诅咒(the Curse of Dimensions)。

所以这也体现了“大”数据的必要性。如果你的数据量不够大,千万不要贸然声称自己发现了什么隐藏的规律。

大数据,不是万能的。但是人很容易为数据痴迷。

 

目前流行的深度学习算法也是通过输入大量数据进行训练才使得算法得出的结果越来越准确。

所以说彩票预测算法是核心,大数据是保证,通过大数据分析可以发现一些反直觉的结论,让投注的时候能够更加理性,更加不会盲目相信小部分历史数据得出的概率。

 

-------------

大数据突飞猛进,但还有一些传统学者没有适应这个工具。如果你有志于用数据分析解决真正的社会问题,这个领域现在非常值得进入。

现在大数据工作的工资也很高。一般数据科学家的平均年薪是9万多美元(现在1美金=6.8元人民币),资深数据科学家是13万美元,Google 的数据科学家年薪更是超过15万美元。

大数据,现在是稀缺技能。大数据不是万能的,但是是一个强大的工具。

就算你不掌握具体的数据分析技术,也应该了解这个思维方式。

当你讨论任何社会问题的时候,千万不要信口开河,最好能找到数据支持,要知道很多真相是反直觉的。

 

------------

赛斯在《人人说谎:大数据、新数据以及关于真实的你我,互联网能告诉我们什么》这本书中列举了大数据的三个关键用处。

1.从罕见的案例中发现规律

2.量化一个效应的大小

3.发现反直觉的结论

 

该考虑到的问题,大数据的研究者们可能也都已经考虑到了,那我们就在一定程度上可以相信他们的结论。

当然一切研究方法都是有漏洞的,任何结论都只能作为参考。

你察觉不到的规律,大数据能察觉到;你察觉到了的效应,大数据能评估这个效应的大小。

更重要的是,大数据能得出一些跟我们的直觉相反,但却是更可信的结论。 

 

假设现在你有两个潜在的结婚对象。第一个人跟你有很多共同的朋友,第二个人则是一个圈外人,你不熟悉他/她的朋友,他/她也不熟悉你的朋友。那么请问,如果你想要的是长期的关系,你应该跟谁结婚呢?

 

直觉来说,也许应该选第一个人。这个人跟你的朋友们相处融洽,那就说明你们有很多共同点,想必结婚之后你们两个也会相处得很好。对吧?

不对。我们在 Facebook 上的交友状况,和单身/已婚/有男女朋友的状况都是公开的,研究者就用 Facebook 的数据做了一个分析。

他们锁定那些是夫妻或者男女朋友关系的人,看看他们的朋友圈有多少重合之处。结果发现,朋友圈重合度越高的夫妻或者男女朋友,越有可能在一定时间之后宣布再次单身。

也就是说,最持久的关系,往往是双方各自有不同的朋友圈。 那这到底是为什么呢?

大数据不能告诉我们原因 —— 这是一个“反直觉”的结论。

也许你身边有一对夫妇,感情良好,他们有很多共同的朋友,那你就应该知道,这只是特例。

人很容易被身边的特例影响判断,而大数据不会犯这样的误。

 

--------

赛斯自己也有一个比较反直觉的发现。

我们知道很多 NBA 球星是出生于贫困家庭,有很多还是来自单亲家庭,那你说,到底是单亲贫困家庭容易出球星呢,还是双亲中产家庭容易出球星?

这个问题非常不好回答。也许单亲家庭的孩子从小自立,拼搏能力更强;也许单亲家庭的孩子从小缺乏管教。

真正的麻烦在于,根本就不存在每个 NBA 球员小时候的家庭状况数据。赛斯想了各种办法。他考察了每个球员都是在哪里出生的,然后看看这些出生地的贫富程度如何。

他尽可能地追溯每个球员的家族历史,他甚至还通过球员的名字判断他是不是来自单亲家庭。原来还有一个规律,单亲妈妈总爱给孩子起一个比较怪的名字,而双亲家庭给孩子起的名就比较正常。 

作为一个数据科学家,他不仅仅是用什么数学工具从现有的数据里发掘事实,他还能主动寻找各种相关的数据,他知道去哪找,而且还真找到了。就这样赛斯把几个数据库连在一起,才算是发现了答案。 

 

答案是:来自父母双全的中产家庭的球员更容易取得好成绩。这里面有两个主要原因。

第一是这样家庭的孩子从小营养好,所以长得更高。

第二是这样的孩子社交能力更强。这两个素质对打篮球来说太重要了。身高的优势就不用说了。

有些 NBA 球星从小养成的思维模式就不行,有点钱就忘乎所以,实在不利于事业成功。

所以,大数据确实能告诉我们一些我们本来不知道的东西。 

 

本人公众号原文:大数据在彩票预测和解决社会问题的用处
https://mp.weixin.qq.com/s/T2E5bwTTga5-xUC8EmF44A

------------------------------

 本人微信公众帐号: 心禅道(xinchandao)

 

本人微信公众帐号:双色球预测合买(ssqyuce)

posted @ 2017-06-18 16:14  大自然的流风  阅读(8088)  评论(0编辑  收藏  举报