读《数学之美》

事实上准备读《数学之美》这本书，是从非常久開始的。

记得去年夏天的时候，是读了《浪潮之巅》，然后就认识了吴军这种一个人，非常喜欢他的写作风格。于是就准备读《数学之美》的。

《数学之美》这本书，本身和《浪潮之巅》一样。已经在众多的读者中有了一个非常好的口碑了，吴军博士本身的才学和研究，对于很多其它的人来说。也形成了一种尊重的心理。

在我读了《浪潮之巅》后，有种非常厚重的历史沧桑感堆积于胸。

不得不承认《浪潮之巅》对于我的影响。

《数学之美》事实上与《浪潮之巅》有非常大的不同，《浪潮之巅》能够说成是一本更适用于大众科普类的读物，里面有作者非常深的思想观点在里面；而《数学之美》则相对来说仅仅是适合这个领域的读者来读。

尽管吴军博士已经将《数学之美》中非常多的定理写得非常浅显。可是假设对于一个文科类学生来说，我认为依然非常难理解。即使对于理科出身的我，念过一年的《高等数学》，里面的非常多的详细的定理技术，相同非常生疏。所以从去年准备读这本书，到今年真正读完它。相隔的时间也挺久的了。而在这之间，我认为也有非常多的机缘和巧合，我由于工作的关系，了解了一些机器学习，人工智能，包含中文分词类的知识，而这部分知识，在《数学之美》中，也有了非常好的体现。

我认为我从来不算是一个实干派，对于某类的技术知识。我愿意先从理论知识入手。先必须了解一个总体的框架，之后才干够做好一个局部的某块。这种逻辑在大公司来说，是基本不可能的，非常多的系统。包含组织。总体的框架有人知道的也已经非常少，大多数人都在忙着自己的那块，完毕了既是完毕了。就像我学中文分词等等的东西。

在有了一定的基础知识之后，我会认为读《数学之美》是一件非常幸福的事，吴军博士的深入浅出的对于非常多理论知识的解说和描写叙述。非常多时候会让你有种茅塞顿开的感觉。

我认为吴军博士文字里总是会有一种人文的东西，在里面。那种感觉非常神秘，也会让你莫名的感受到一个在学术上有非常好造诣的人的内心情怀。就像吴军描写叙述的非常多的人一样。非常多有非常多成就的人，不紧紧是一个人，或者有非常古怪的性情，或者有非常独特的思想，但非常多人相同已自己的一种坚持和态度。在影响着很多其它的人。所以他们会成功。也会带领很多其它的人成功。

在读了《数学之美》之后，自己也反思了非常多自己的事。对的。不正确的，都有。

有时候想。有的大学为什么会那么好。而有的大学不那么好。非常多人愿意非常努力的去更好的学校是为什么，而读过大学的非常多人都应该知道，大学很多其它的是自学。你能够非常老师交流。

而我所理解的好的大学，它之所以好，是由于它首先有非常多非常好的老师集中在那里，所以他们能够集中很多其它的关注点。然后吸引了很多其它的优秀的人，而这些牛人也非常会带领优秀的人。所以这会形成一种循环，由于有好的，来好的，变更好。这就是好的发展循环。

吴军博士在后记里面写了一句，我认为特别好的话：“世界上最好的学者总是深入浅出的把大道理讲给外行人听，而不是故弄玄虚的把简单问题复杂化。”书中吴军博士也谈到非常多的理论。在非常多的时候，可能你尽量的去简化它，往简单的方向去想，也许结果会非常些，就像隐含马尔科夫模型等等。或者另一些科学领导者的思想。

每次读吴军博士的书之后，总认为意犹未尽（尽管一共。我也仅仅读了两本）。

书尽管是读完了，可是我总认为那里面，能够我去想，去领会的东西还有非常多。我记得一句让我印象非常深刻的话“非常多人读书的时候，不应该追求读书的数量。而应该在于你读它。你用来思考的时间。”

以下是我习惯，把一本书的文件夹附上：

第1章　文字和语言 vs 数字和信息

文字和语言与数学，从产生起原本就有相通性，尽管它们的发展一度分道扬镳，可是终于还是能走到一起。

第2章　自然语言处理— 从规则到统计人类对机器理解自然语言的认识走了一条大弯路。早期的研究集中採用基于规则的方法，尽管攻克了一些简单的问题。可是无法从根本上将自然语言理解实用化。直到?多年后。人们開始尝试用基于统计的方法进行自然语言处理，才有了突破性进展和实用的产品。

第3章　统计语言模型

统计语言模型是自然语言处理的基础，并且被广泛应用于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询。

第4章　谈谈中文分词

中文分词是中文信息处理的基础，它相同走过了一段弯路。眼下依靠统计语言模型已经基本攻克了这个问题。

第5章　隐含马尔可夫模型

隐含马尔可夫模型最初应用于通信领域，继而推广到语音和语言处理中，成为连接自然语言处理和通信的桥梁。同一时候。隐含马尔可夫模型也是机器学习的主要工具之中的一个。

第6章　信息的度量和作用

信息是能够量化度量的。信息熵不仅是对信息的量化度量，也是整个信息论的基础。

它对于通信、数据压缩、自然语言处理都有非常强的指导意义。

第7章　贾里尼克和现代语言处理

作为现代自然语言处理的奠基者。贾里尼克教授成功地将数学原理应用于自然语言处理领域中，他的一生富于传奇色彩。

第8章　简单之美— 布尔代数和搜索引擎的索引布尔代数尽管非常easy。却是计算机科学的基础，它不仅把逻辑和数学合二为一，并且给了我们一个全新的视角看待世界，开创了数字化时代。

第9章　图论和网络爬虫

互联网搜索引擎在建立索引前须要用一个程序自己主动地将全部的网页下载到server上，这个程序称为网络爬虫，它的编写是基于离散数学中图论的原理。

第10章　PageRank — Google的民主表决式网名

网页排名技术是早期的杀手锏。它的出现使得网页搜索的质量上了一个大的台阶。它背后的原理是图论和线性代数的矩阵运算。

第11章　怎样确定网页和查询的相关性确定网页和查询的相关性是网页搜索的根本问题。当中确定查询中每一个关键词的重要性有多高是关键。是眼下通用的关键词重要性的度量，其背后的原理是信息论。

第12章　地图和本地搜索的最基本技术

有限划地图和本地服务中要用到有限状态机和动态规划技术。

这两项技术是机器智能和机器学习的工具，它们的应用非常广泛，还包含语音识别、拼写和语法纠错、拼音输入法、工业控制和生物的序列分析等。

第13章　Google AK-47 的设计者— 阿米特·士

在全部轻武器中最有名的是冲锋枪。由于它从不卡壳，不易损坏。可在不论什么环境下使用，可靠性好。杀伤力大并且操作简单。的产品就是依照上述原

则设计的。

第14章　余弦定理和新闻的分类

计算机尽管读不懂新闻，却能够准确地对新闻进行分类。

其数学工具是看似毫不相干的余弦定理。

第15章　矩阵运算和文本处理中的两个分类问题不管是词汇的聚类还是文本的分类，都能够通过线性代数中矩阵的神秘值分解来进行。这样一来，自然语言处理的问题就变成了一个数学问题。

第16章　信息指纹及其应用

世间万物都有一个唯一标识的特征。信息也是如此。

每一条信息都有它特定的指纹，通过这个指纹能够差别不同的信息。

第17章　由电视剧《暗算》所想到的— 谈谈原理

password学的根本是信息论和数学。

没有信息论指导的password是非常easy被破解的。仅仅有在信息论被广泛应用于password学后，password才真正变得安全。

第18章　闪光的不一定是金子— 谈谈搜索引擎题

闪光的不一定是金子，搜索引擎中排名靠前的网页也未必是实用的网页。

消除这些作弊网页的原理和通信中过滤噪音的原理相同。这说明信息处理和通信的非常多原理是相通的。

第19章　谈谈数学模型的重要性

正确的数学模型在科学和project中至关重要，而发现正确模型的途径经常是曲折的。

正确的模型在形式上一般是简单的。

第20章　不要把鸡蛋放到一个篮子里— 谈谈型

最大熵模型是一个完美的数学模型。

它能够将各种信息整合到一个统一的模型中。在信息处理和机器学习中有反作弊问题着广泛的应用。它在形式上非常easy、优美，而在实现时须要有精深的数学基础和高超的技巧。

第21章　拼音输入法的数学原理

汉字的输入过程本身就是人和计算机之间的通信。

好的输入法会自觉或不自觉地遵循通信的数学模型。当然要做出最有效的输入法，应当自觉使用信息论做指导。

第22章　自然语言处理的教父马库斯和他的们

将自然语言处理从基于规则的研究方法转到基于统计的研究方法上，宾夕法尼亚大学的教授米奇·马库斯功不可没。他创立了今天在学术界广泛使用的语料库，同一时候培养了一大批精英人物。

第23章　布隆过滤器

日常生活中，经常要推断一个元素是否在一个集合中。布隆过滤器是计算机project中解决问题最好的数学工具。

第24章　马尔可夫链的扩展— 贝叶斯网络

贝叶斯网络是一个加权的有向图，是马尔可夫链的扩展。而从认识论的层面看：贝叶斯网络克服了马尔可夫链那种机械的线性约束，它能够把不论什么有关联的事件统一到它的框架以下。它在生物统计、图像处理、决策支持系统和博弈论中都有广泛的使用。

第25章　条件随机场和句法分析

条件随机场是计算联合概率分布的有效模型，而句法分析似乎是英文课上英语老师教的东西，这两者有什么联系呢？

第26章　维特比和他的维特比算法

维特比算法是现代数字通信中使用最频繁的算法，同一时候也是非常多自然语言处理的解码算法。能够毫不夸张地讲，维特比是对我们今天生活的影响力最大的科学家之中的一个。由于现在基于的移动通信标准主要就是他创办的高通公司制定的。

第27章　再谈文本自己主动分类问题— 期望最大化算法

仅仅要有一些训练数据，再定义一个最大化函数，採用算法。利用计算机经过若干次迭代，就能够得到所须要的模型。这实在是太美妙了，这也许是我们的造物主刻意安排的。所以我把它称作上帝的算法。

第28章　逻辑回归和搜索广告

逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型。它不仅在搜索广告中起着关键的数据，并且被广泛应用于信息处理和生物统计中。

第29章　各个击破算法和Google 云计算的基础

Google颇为神秘的云计算中最重要的MapReduce工具，其原理就是计算机算法中经常使用的“各个击破”算法。它的原理原来这么简单— 将复杂的大问题分解成非常多小问题分别求解，然后再把小问题的解合并成原始问题的解。由此可见，在生活中大量用到的、真正实用的方法

经常都是简单朴实的。

posted @ 2019-06-03 10:23 ldxsuanfa 阅读(377) 评论(0) 编辑收藏举报

刷新页面返回顶部