My Github

《智能时代》读书笔记:这是最好的时代,也是最坏的时代

一、关于此书

    

  看完了《硅谷之谜》之后,室友肖老板立即向我推荐了这本《智能时代》,当然他也买了,于是乎我就拿来看了。作者仍然是无所不通的吴军博士,Google早期员工之一,原腾讯副总裁,当前Google中日韩文搜索算法的主要设计者硅谷大咖,是一个还不错的摄影爱好者,一个古典音乐迷,喜欢享受高质量的影视。平时偶尔会修理园子,甚至做点木匠活,每年还会旅游很多次。

  罗辑思维的罗胖曾经这样评价吴军博士:“吴军博士是一个时间管理方面做到极致,同时又充满生活乐趣的人”。记得柴静在《看见》一书中说道,她的老师陈氓说道:“成功的人不会幸福,因为他只能专注一个事,你不能分心,你必须全力以赴工作,不要谋求幸福”,而吴军博士恰恰正是为了打陈氓老师的脸的(哈哈),而这种状态其实也是我所追求的。

  说来惭愧,我的研究生专业是计算机,研究方向是云计算,照理说应该对大数据有所研究。但是,研一就被老师派到校外去做.NET应用开发了(哈哈,感觉一下就low了好多),也就有了我现在在博客园的活跃,啊哈哈。虽然自己在研究生阶段学习了一些Hadoop的技术,也有了一些感性认识,但毕竟不完整。如果你对下面几个问题感兴趣,那就一起阅读一下这本书吧:

在南卡罗来纳州的多切斯特县,警察是怎么通过智能电表抓住一个在自家种大麻的人?  

亚马逊为什么会把男性护肤品和古典音乐一同推荐?

塔吉特连锁百货店是如何提前于家长知道正在上高中的女儿已经怀孕的?

  如果你想知道上面这些问题的答案,那么就去读一读这本《智能时代》吧。好了,书托这个国际惯例就到此结束啦。

二、精华笔记

0.推荐序

  • 用不确定的眼光看待世界,再用信息来消除这种不确定性”,是大数据解决智能问题的本质
  • 世界的不确定性来自两个方面,一是影响世界的变量太多以至于无法用数学模型来描述;二是来自客观世界本身:不确定性是我们所在宇宙的特性。
  • 机器智能革命的发生来自大数据量的积累达到质变的奇点。→从这个角度看,机器学习同人类学习并没有什么本质的不同

1.数据-人类建造文明的基石

  ① 数据最大的作用在于承载信息,但并非所有的数据都承载了有意义的信息。数据本身是人造物,因此他可以被随意制造,甚至可以被伪造。

  ② 对数据和信息进行处理后,人类就可以获得知识。知识比信息更高一个层次,也更加抽象,它具有系统性的特征。

eg.测量星球的相对位置和对应的时间,就得到了数据;通过这些数据得到星球运动的轨迹,就是信息;通过信息总结出开普勒三定律,就是知识。

  ③ 相关性是使用数据的钥匙。很多时候,我们无法直接获取信息,但是我们可以将相关联的信息量化,然后通过数学模型,间接地得到所要的信息。

eg.Google利用各地用户搜索和流感有关的关键词的趋势变化,预测疫情的传播情况

  ④ 数据驱动方法:只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型。因为它是先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据。虽然这种数据驱动方法在数据量不足时找到的一组模型可能和真实的模型存在一定的偏差,但是在误差允许的范围内,单从结果上看和精确的模型是等效的。它是大数据的基础,也是智能革命的核心,更重要的是,它带来一种新的思维方式。

  ⑤ 在今天的IT领域,越来越多的问题可以采用数据驱动方法来解决。具体讲,就是当我们对一个问题暂时不能用简单而准确的方法解决时,我们可以根据以往的历史数据,构造很多近似的模型来逼真真实情况,这实际上是用计算量和数据量来换取研究时间。它的最大优势在于,可以在最大程度上得益于计算机技术的进步。

2.大数据和机器智能

  ① 图灵测试:让一台机器和一个人坐在幕后,让一个裁判同时与幕后的人和机器进行交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说明这台机器和人有了同等的智能。

  ② 人工智能这个名词严格地讲在今天有两个定义:

  第一个是泛指机器智能,也就是任何可以让计算机通过图灵测试的方法,包括数据驱动方法;

  第二个是狭义上的概念,即20世纪五六十年代特定的研究机器智能的方法(首先了解人类如何产生智能,然后让计算机按照人的思路去做)。

  ③ 全世界各个领域数据不断向外扩展,渐渐形成了另外一个特点,那就是很多数据开始出现交叉,各个纬度的数据从点和线渐渐连成了网,或者说,数据之间的关键性增强,在这样的背景下,就出现了大数据。

  ④ 大数据的特征 : 体量大多维度全面性

Q:为什么使用Big Data而不是Large Data ?

A:Big与Large等近义词的差别在于,Big更强调的是相对小的大,是抽象意义上的大,而Large和Vast等常用于形容体量的大小。使用Big更重要的是它传递了一种信息—大数据是一种思维方式的改变。

  ⑤ 我们对大数据重要性的认识不应该停留在统计、改进产品和销售,或者提供决策的支持上,而应该看到它(和摩尔定律、数学模型一起)导致了机器智能的产生。而机器一旦产生和人类类似的智能,就将对人类社会产生重大的影响

3.思维的革命(吴军博士开始讲历史了)

  ① 托勒密方法论的核心思想:首先,需要一个简单的元模型,这个模型可能是假设出来的,然后用这个元模型构建复杂的模型;其次,整个模型要和历史数据相吻合。(动态规划管理学的理论方法和托勒密方法论一致)

  缺陷: 一是整体模型很复杂;二是确定性假设,模型一旦产生,就是确定的和不会改变的。

  ② 笛卡尔的科学方法论:大胆假设,小心求证。

  ③ 牛顿的机械思维:一是世界变化的规律是确定的;二是因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚;三是这些规律应该是放之四海而皆准的,可以应用到各种未知的领域指导实践。→工业革命就是机械思维的结果

  ④ 世界的不确定性来自两个方面:一是当我们对这个世界的方方面面了解的越来越细致后,会发现影响世界的变量其实非常多,已经无法通过简单的办法或者公式算出结果,因此我们宁愿采用一些针对随机事件的方法来处理他们,人为的把他们归位不确定的一类。二是不确定性的第二个因素来自客观世界本身,它是宇宙的一个特性。

  ⑤ 信息量与不确定性有关:假如我们要搞清楚一件非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,那么就不需要太多的信息就能把他搞清楚。所以从这个角度看,可以认为,信息量的度量就等于不确定性的多少,这样香农就把熵和信息联系起来了。→香农真是碉堡了!

重点:用不确定性这种眼光看待世界,再用信息消除不确定性,不仅能够赚钱,而且能把很多智能性的问题转化成信息处理问题,具体说,就是利用信息消除不确定性的问题。

 

  ⑥ 香农老人家的杰作:第一定律(将原始信源符号转化为新的码符号,使码符号尽量服从等概分布,从而每个码符号所携带的信息量达到最大,进而可以用尽量少的码符号传输信源信息。)和第二定律(信息的传播速率不能超过信道的容量)。

  最大熵原理:当我们要对未知的事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。

  ⑦ 现代通信手段的本质:就是以相对低廉的成本获得人脉,而媒体行业的不断进步,本质上是不断地在为企业拓宽对外连接的宽带,使得它们做生意越来越方便

  ⑧ 大数据的科学基础是信息论,而它的本质就是利用信息消除不确定性

  ⑨ 大数据时代的思维方法:从大量数据中直接找到答案,即使不知道原因。这一方面给了我们一个找捷径的方法,同时我们不会因为缺乏勇气而被难倒;另一方面我们是否能接受这种不知道原因的答案。

4.大数据与商业

  ① 大数据在商业活动中从细节到整体再从整体到细节的双向流动,使得我们不仅能够利用大数据对商业进行整体提升,更能够精确到每一个细节。

  ② 一项技术带动整个社会变革的事情,通常遵循一个模式:

  新技术+原有产业=新产业

(新技术: 从蒸汽机、电、摩尔定律到大数据、机器智能)

  ③ 在大数据时代,IT软件和服务业依然会是IT领域最好的行业,而且这个趋势更加明显。提供服务虽然不像销售产品一次能挣到比较多的钱,但是细水长流的技术服务最终会给这些服务的提供者带来更长久的生意、更多的利润。未来产品的服务水平不完全取决于厂商对它的重视程度(如服务态度)和相关技术,而更多依靠智能化。未来,商家将在数据层面和智能化方面展开竞争。

  ④ 在今天的大数据和机器智能时代,虽然每一个公司都得益于数据的使用以及机器智能带来的好处,但这并不意味着每家公司都要聘请数据科学家或者机器智能方面的专家。更切合实际的是,他们付费使用第三方的服务。在未来我们可以看到,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用。

5.大数据和智能革命的技术挑战

  ① 大数据时代,在收集数据时常常没有预先设定的目标,而是先把所有能够收集的数据收集起来,经过分析后,能够得到什么结论就是什么结论。这样就避免了采样之苦,因为大数据常常以全集作为样本集。

  ② 大数据并行计算的难题:一是任何一个问题总有一部分计算是无法并行的,这类计算占比越大,并行处理的效率越低;另一个影响并行计算效率的因素在于无法保证每个小任务的计算量是相同的。

  ③ 解决大数据实时处理的问题,就要从根本上改变系统的设计和算法。

  ④ 机器智能的关键—数据挖掘。一是对数据过滤和整理;二是进行机器学习,机器学习是一个不断迭代、不断进步的过程,即“期望值最大化”—只要事先设定一个学习的目标,这些算法就会不断地优化模型,让它越来越接近现实情况。→ETL+ML

  ⑤ 数据安全技术面临问题:一是保证用户数据不损坏、不丢失;二是保证数据不会被偷走或者盗用。

  解决的方法:一是从文件设计和操作系统设计上加以改进;二是利用大数据本身的特点,来保护大数据的信息安全(如固定数据操作流程)。

  ⑥ 大数据时代保护隐私的技术:一是从收集信息的一开始就对数据进行一些预处理,预处理后的数据保留了原来的特性,使得数据专家能够处理数据,但却读不懂数据的内容;二是双向监视,让侵犯隐私的人必须以自己的隐私来做交换。→我个人比较期待第二种双向监视的方式!

6.未来智能化产业

  ① 未来的农业:在引入机器智能后,农业将以崭新的形态出现(以色列利用高科技改善农业灌溉)。

  ② 未来的体育:利用大数据指导训练,分析和总结优秀运动员的动作与技术,纠正其他运动员的动作(NBA金州勇士队利用大数据建队)。

  ③ 未来的制造业:机器智能渗透到产品制造和销售的各个环节时,整个制造业将重新洗牌,未来的竞争要靠从设计到销售全过程的智能化水平。

  ④ 未来的医疗:降低医疗成本、解决医疗资源短缺、制造业革命、预防衰老及延长寿命

  ⑤ 未来的律师业:自然语言处理软件处理法律文件,提高律师工作效率,降低诉讼成本。

  ⑥ 未来的记者和编辑:计算机能提高新闻行业的效率,同时会让记者和编辑的工作种类萎缩。

7.智能革命和未来社会(拥抱革命,争当2%的受益人)

  ① 智能社会体现在方方面面,但概括起来,就是让我们的生活变得更加方便,同时社会资源的利用率极大提高。要做到这一点,重要的是让整个社会精细化。

  ② 精细化社会:利用区块链(Block Chain)追踪每一次交易(比特币、追踪商品从生产到销售、流通的每一个环节),从标准化到个性化的服务(用药)

  ③ 大数据、移动互联网(万物联网技术)和机器智能三者叠加到一起后,我们不再有隐私可言;同时大数据会带来一个威胁,它在无形中会制造出一个老大哥。→ Big Brother is watching you!

  ④ 在智能时代,不是每个人都要去机器智能的研发制造企业或者去数据公司找工作,而是大家要接受一个新的思维方式,利用好大数据和机器智能,加入到智能革命的浪潮中,成为那2%的受益者

三、这是最好的时代,也是最坏的时代

  阅读《智能时代》最大的感受莫不在于书中引用的狄更斯的《双城记》第一句:“这是最好的时代,也是最坏的时代”。回望历史,人类所经历过的三次重要革命:19世纪末始于英国的工业革命、20世纪末始于美国和德国的第二次工业革命以及二战后以摩尔定律为标准的信息革命,每一次的革命都对当时的社会产生了巨大的冲击,他们或多或少都经历了大约半个多世纪甚至更长的时间才能被消化掉。

  我们至今仍然处在信息时代的高峰年代,我们见证了苹果公司的乔布斯、微软帝国的比尔盖茨、戴尔公司的迈克尔戴尔、Google公司的拉里佩奇和谢尔盖布林等人,他们在自己年富力强时幸运地赶上了信息革命的大潮,站在了浪潮之巅。我们也见证了BAT在中国的巨无霸模式发展,也见证了在中国应用“新技术+原有产业=新产业”的诸多实践案例,它们让我们的生活变得更加方便,不禁感叹:自己处在了最好最方便的时代,有了信息,有了互联网,我们也就有了一切。

  信息时代还没结束,以大数据和机器智能为趋势的智能革命又已经来临,吴军博士说:“大数据和机器智能的趋势一旦形成,就不是人力可以阻挡的”。我们也看到虽然特斯拉的马斯克和微软的盖茨嘴上说不要,身体却很诚实(都花了重金投入到机器智能领域的研发)。但是,智能革命所要替代的是我们人类最自豪的部分—大脑!!!在过去,机器替代的只是人的手,而智能革命的结果是让计算机替代人去思考,或者说靠计算能够得到比人类思考更好的结果,能过更好地解决各种智能问题。这时,或许我们会在某天醒来突然发现,好像已经没有什么地方需要我们去做了。当全社会各行各业的从业人数都因为机器智能而减少时,全世界几十亿劳动力怎么办?我们又不禁感叹:自己处在了最坏的时代,有了计算机,有了机器智能,再也不需要人类工作了,我们又拿什么养活自己和家人?

  此外,大数据和机器智能的发展也导致了目前我们处在一个无隐私的社会,正如吴军博士所说 “在今天和未来,当大数据、移动互联网(万物联网技术)和机器智能三者叠加到一起后,我们不再有隐私可言”。因为隐私被泄露,我们或许常常会在淘宝购物时受到假货,机票总是比别人贵10%,可能没有医院会接收我们住院,更可恶的是各大保险公司有权利拒绝一位未来可能得重病的投保者(各大保险实际上掌握着投保人过去多年的身体状况信息,再加上对数据的分析和挖掘)。回头想想,我们随时随地地在享受互联网信息时代带来的方便的同时也在无时无刻地主动的隐私泄密,从可穿戴式设备到带有GPS的相机,再到与Wi-Fi相连的各种智能电子产品,不自觉地就记录下了我们详细的行踪和生活信息,并且提供了服务商。究其源头,还是我们自己在不设防的情况下把信息泄露出去的。

  书中提到,在历次技术革命中,一个人、一家企业,甚至一个国家,可以选择的道路只有两条:要么进入前2%的行列,要么被淘汰。抱怨是没有用的。因此,回到这句话“这是最好的时代,也是最坏的时代”,信息时代余波未尽,智能时代又来了,机器人跟人类抢饭碗,社会需要的人则会越来越少,很多人都会被淘汰。借用吴军博士的话,任何一次技术革命,最初受益者都是发展它、使用它的人,而远离它、拒绝接受它的人,在很长的时间里都将是迷茫的一代。在智能革命即将到来之际,作为普通人和企业都应该拥抱它,让自己成为2%的受益者,而我们IT从业人员更需要在这样的环境里学会生存,因为这是最好的时代,也是最坏的时代!


长长的分隔线后,顺便打个广告,我司招聘大数据开发工程师啦,坐标成都天府软件园,希望有大数据工作经验的你的加入!有兴趣就给个简历吧,Edison_X_Zhou@manulife.com

  宏利金融全球服务中心IS招聘
  高级大数据开发工程师
 
职位诱惑:

外资金融,六险一金,带薪假期,弹性时间

职位描述:

Job Summary工作内容:

与Product Owner和项目经理进行需求和项目讨论,提供技术和业务的解决方案

根据实际业务需求,负责公司大数据平台及应用系统的架构设计与开发,技术改进与性能优化

指导和培训开发人员,解决系统开发、运行中出现的各种问题,同时保证交付质量

建立大数据智能分析工作的流程、规范和方法

参与和帮助团队的敏捷实施和持续改善

积极学习和掌握保险相关的业务和系统知识

完成主管安排的其他工作

                                                                                                     

Job Requirements (Knowledge/Skills/Competencies) 任职资格:

计算机相关专业本科及以上学历,4年以上工作经验,其中包含2年或以上的大数据开发实施经验

精通Java语言,熟悉常见应用框架(如Spring、MyBatis等)和设计模式

熟悉Linux环境,能够熟练使用至少一种脚本语言(如Shell、Python等)

熟悉Hadoop/Yarn/Hbase/Hive//Flume/Spark/Kafka等常用大数据组件

熟悉MS SQL Server/Oracle/MySQL/Redis/MongoDB等常见存储和缓存系统

熟悉 Git 等代码版本控制技术

较强的分析和解决问题能力,对攻关疑难问题具有浓厚兴趣

良好的团队合作精神、沟通能力和学习能力

有大数据平台建设经验者优先录用

有金融行业背景经验更佳

有Web开发经验更佳

 

工作地址

成都 - 高新区 - 天府软件园C11-6楼

 

posted @ 2017-02-20 21:21  EdisonZhou  阅读(4542)  评论(0编辑  收藏  举报