每周必写
《大数据时代》开篇讲了Google通过人们在搜索引擎上搜索关键字留下的数据提前成功的预测了2009年美国的H1N1的爆发地与传播方向以及可能的潜在患者的事情。Google的预测比政府提前将近一个月,相比之下政府只能够在流感爆发一两个周之后才可以弄到相关的数据。同时Google的预测与政府数据的相关性高达97%,这也就意味着Google预测数据的置信区间为3%,这个数字远远小于传统统计学上的常规置信区间5%!而这个数字就是大数据时代预测结果的相对准确性与事件的可预测性的最好证明!通过这一事以及其他的案例,维克托提出了在大数据时代“样本=总体”的思想。我们都知道当样本无限趋近于总体的时候,通过计算得到的描述性数据将无限的趋近于事件本身的性质。而之前采取的“样本<总体”的做法很大程度上无法做到更进一步的描述事物,因为之前的时代数据的获取与存储处理本身有很大的难度只导致人们采取抽样的方式来测量事物。而互联网终端与计算机的出现使数据的获取、存储与处理难度大大降低,因而相对准确性更高的“样本=总体”的测算方式将成为大数据时代的主流,同时大数据时代本身也是建立在大批量数据的存储与处理的基础之上的。
接下来,维克多又通过了IBM追求高精确性的电脑翻译计划的失败与Google只是将所有出现过的相应的文字语句扫描并储存在词库中,所以无论需要翻译什么,只要有联系Google词库就会出现翻译,虽然有的时候的翻译很无厘头,但是大多数时候还是正确的,所以Google的电脑翻译的计划的成功,表明大数据时代对准确性的追求并不是特别明显,但是相反大数据时代是建立在大数据的基础住上的,所以大数据时代追求的是全方位覆盖的数字测度而不管其准确性到底有多高,因为大量的数据会湮埋少数有问题的数据所带来的影响。同时大量的数据也会无限的逼近事物的原貌。
之后,维克托又预测了一个在大数据时代催生的重要职业——数据科学家,这是一群数学家、统计学与编程家的综合体,这一群人将能够从获取的数据中得到任何他们想要的结果。换言之,只要数据充足我们的一切外在的与内在的我们不想让他人知道的东西都见会在这一群家伙的面前展现得淋漓尽致。所以为了避免个人隐私在大数据时代被这一群人利用,维克托建议将这一群人分为两部分,一部分使用数据为商业部门服务,而另一群人则负责审查这一些人是否合法的获得与应用数据,是否侵犯了个人隐私
《大数据时代》这本书的结构框架遵从了学术性书籍的普遍方式。也既,从现象入手,继而通过对现象的解剖提出对这一现象的解释。然后在通过解释在对未来进行预测,并对未来可能出现的问题提出自己看法与对策。
在上次课的开发基础上,这周继续深入开发,对四则运算的改写,得出不同的显示结果。这周的开发的时间比上次提高了许多,上次大部分的时间都在思考和想这句语句怎么写,怎么用。这次用了两个小时开发,但是比上次有收获,把遗忘的知识一点一点拾回。虽然课题不难,但是很多知识点都是我们必须掌握的,一个简单的程序会,到稍稍增加了一点难度的时候,就不知道怎么做,怎样把它开发出来。其实没有笨的人,只有懒的人,什么是只要勤勤恳恳,认认真真的去做,就一定成功。