吴军博士的《数学之美》（摘录）

说明：以下内容是我从这本书中挑选出来，对我的思维和思想有所启发的。在这里分享给大家。

从希腊哲学家到现代物理学的整个科学史中，不断有人力图把表面上极为复杂的自然现象归结为几个简单的基本概念和关系。——爱因斯坦
设计原理：简单性和模块化是软件工程的基石；分布式和容错性是互联网的生命。
不同文字系统在记录信息上的能力是等价的。进一步讲，文字只是信息的载体，而非信息本身。不用文字，用其他的载体（数字）也可以存储同样意义的信息。——现代通信的基础。
罗塞塔石碑的意义：
- 信息的冗余是信息安全的保障。
- 语言的数据（语料），尤其是双语或者多语的对照语料对翻译至关重要，是从事机器翻译的基础。
阿拉伯数字的发明者是印度人。有阿拉伯人将其发扬光大。
罗马体系的拼音文字中，总体来讲，常用字短，生僻字长。而在汉字中，大多常用字笔画少，生僻字笔画多。这完全符合信息论中最短编码原理，同时给书写带来了省时间和省材料。
任何一种语言都是一种编码方式，而语言的语法规则是编解码的算法。我们把一个要表达的意思，通过某种语言的一句话表达出来，就是用这种语言的编码方式对头脑中的信息做了一次编码，编码的结果就是一串文字。而如果对方懂得这门语言，就可以用这门语言的解码方式获得说话人的要表达的意思。——语言的数学本质。
让人和机器进行交流，如果人无法判断交流的对象是人或者机器，就说明这个机器智能化了。——图灵测试
数学的魅力在于将复杂的问题简单化。
机器翻译中，词的颗粒度大效果好。网页搜索中，小的颗粒度效果好。
吴军博士和弗莱德的少年教育感想。
- 小学生和中学生其实没有必要花那么多时间读书，而他们的社会经验，生活能力及在那时树立起来的志向将帮助他们一生。
- 中学阶段话很多时间比同伴多读的课程，在大学以后用非常短的时间就可以读完，因为在大学阶段，人的理解能力要强得多。
- 学习和教育是一个人一辈子的过程。做到因兴趣而读书，不是因利益而读书。
- 书本的内容可以早学，也可以晚学，但错过了成长阶段却是无法补回来的。（少年班的做法不可取）
- 人生的梦想可能在每个阶段会改变，但通过努力走向成功的志向不能改变。
- 一个人要想做到世界一流，那么他的周围一定要有非常多的一流人物。
- 再给别人提供方法的时候，只告诉他什么方法不好，好的方法是属于他们自己的。
搜索引擎需要做的几件事儿
- 自动下载尽可能多的网页
- 建立快速有效的索引
- 根据相关性对网页进行快速有效的排序
搜索引擎会自动把用户的查询语句转化成布尔运算的算式。
- 布尔运算用于搜索引擎真的很厉害。
人们发觉真理在形式上从来是简单的，而不是复杂和含糊的。
网页的下载
- 网页的遍历原理是图的2中遍历，深度遍历和广度遍历。
- 利用网络爬虫原理下载整个互联网网络网页。
- 网络爬虫在工程上的细节非常多，其中大的方面有。
  - 首先用广度优先算法BFS还是深度优先算法DFS？
    - 理论上不考虑时间因素的前提下都可以，但是搜索引擎的网络爬虫应该定义为"如何有限的时间内最多的爬下最多的网页"。所以在这种前提下，BFS优于DFS。
    - 用哈希表记录那些网页已经下载过。
网页排名算法利用了数学矩阵的算法。
网页和查询的相关性
- 关键词权重的科学度量，关键词的次数，关键词的频率，
- 以及权重的计算，停止词的权重为0
地图和本地搜索的最基本技术——有限状态机和动态规划（一刀切）
一个好的算法，应该简单，有效，可靠性好而且容易读懂，易操作。
先帮助用户解决80%的问题，在慢慢解决20%的问题。
余弦定理和新闻分类
- 新闻的特征向量
- 余弦夹角
美国人总是倾向于用机器和计算机代替人工完成任务，虽然在短期内需要做一些额外的工作，但从长远看可以节省很多时间和成本。
矩阵运算与文本的处理
- 文本语词汇的矩阵：运用矩阵运算中的奇异值分解，可以一次性就能把所有新闻相关性计算出来。
信息指纹及其应用
- 信息指纹通过伪随机数产生。
- 哈希表的存储效率一般只有50%左右。
- 相似哈希：如果2个网页的相似哈希的相差越小，这2个网页的相似性就越高。
- YouTube的反盗版
  - 视频的提取有2个核心技术：关键帧的提取和特征的提取。
  - 谷歌的广告分成策略：所有的视频都可以插入广告，但是广告的收益全部提供给原创的视频，即使广告插入在拷贝的视频里，收入也是原创的视频所拥有。
由电视剧《暗算》所想到——谈谈密码学的数学原理
- 世界上没有永远破不了的密码，关键是它能有多长时间的有效期。
搜索引擎的反作弊问题
- 重复关键词
- 买卖链接
- 技高一筹，道高一丈。
- 反作弊原理用到了通信模型。（余弦定理，以及图论）
谈谈数学模型的重要性
- 今天的日历又叫做：格利高里日历。
- 一个正确的数学模型，应当在形式上是简单的。
- 一个正确的模型一开始可能还不如一个精雕细琢过错误模型来的准确，但，如果我们认定大方向是对的，就应该坚持下去。
- 大量准确的数据对研发很重要。
- 正确的模型也可能受噪音干扰，而显得不正确。这是不应该用一种凑合的修正方法来弥补，而是找到噪音的根源，这也许能通往重大的发现。
不要把鸡蛋放在一个篮子里，谈谈——最大熵模型
布莱尔善于寻找简单却有效的方法，而从不隐瞒自己的方法，让别人追赶自己，当有别人追赶你时，并且超过你时，说明你发现的领域有意义，但此时，你已经调转船头驶向其他领域了。这一点是别人永远无法追赶的。
布隆过滤器是解决哈希表问题的。
各个击破算法和谷歌云计算问题
- 云计算的一个关键问题是：如何把一个非常大的计算问题，自动分解到许多计算能力不是很强大的计算机上，共同完成。其，基本原理就是计算机上很常见的分治算法，称之为各个击破算法。
- 数据结构中的归并算法
- 小结：在生活中大量用到的，真正有用的方法往往简单而朴实。
全书中的感悟：
- 科学家们能把他们自己领域最深奥的道理用很简单的比喻讲清楚。这是他们能成为世界级顶级科学家的原因，他们一方面对于自己的领域非常精通，同时他们能把道理讲清楚。世界上最好的学者总是可以深入浅出把大道理讲给外行听，而不是故弄玄虚，把简单的问题复杂化。

posted @ 2015-03-22 15:02 [0] 阅读(981) 评论(0) 收藏举报

刷新页面返回顶部