数据分析？他们早就开始用了——数学之美读书笔记

数据分析？他们早就开始用了？

标题取得很好听，其实就是《数学之美》这本书的读书笔记。这是每一个想学编程了解计算机的人都不应该错过的好书，必须推荐

光看这个名字，你可能以为它就是一本讲数学的书，觉得无聊而直接就想扔掉。但它其实是一本非常适合于机器学习和算法入门的计算机科普书籍。作者把他搞各种科研，以及在GOOGLE多年工作的所见所闻，都浓缩在这本书里，用浅显易懂的语言，给我们做了一次机器学习科普，厘清了各种概念数学原理算法的前世今生，还明白它们怎么在搜索领域、自然语言识别领域大放光彩。

那么话题扯回来，为什么看完这本书，会有种——数据分析，他们早就开始在做——的感觉呢？

事实上，虽然近些年来数据分析数据挖掘机器学习的概念特别特别火，可能很多人会以为这是近几年才渐渐重视起来并形成一套套方法论的新东西。但是其实早在计算机设计的初端，数据分析与挖掘，就应用于写代码搞算法的方方面面了。

抽象点来说，是算各种算法的复杂度。具体一点，从一个google搜索引擎的开发，需要科研人员反反复复去衡量计算机资源与产品效果间的最佳解，到在各种开发中不停地追求打字速度最优，分析瓶颈，都是统计数据、分析问题、抽象解决的老三套。曾听人吐槽说，“根本没有什么新的数据科学家，很多学科本来就是建立在数据统计与分析基础上的，数据科学家一直就存在”。

正因如此，我们可以说，数据分析和挖掘，早就被应用在计算机科学的方方面面了。所以脱离了编程和对计算机理解的机器学习和数据分析是在耍流氓。反而来，如果数据分析学习遇到瓶颈，通过进一步学习算法及其实际应用，了解数据结构和设计，了解编程，也许能更快速得突破瓶颈期。

而以上这些思考，正是《数学之美》里向我们展示的神奇世界。

另外，在这本书里，作者还把他这些年科研的各种经验道理，穿插在一个个案例中讲述。譬如说，“简单模型在工业界的实用性”，认为“学技术学‘道’比学‘术’更加重要”等等。他还反复强调要多分析异常结果，认为简单有效的解决方案，往往建立在对细节充分的研究以及思考上。这些对于经验不足的人，确实是十分宝贵的财富。

说到最后，我反正是认认真真把这本书看完了。但是由于《数学之美》有三十一个章节，几乎每个章节都在讲不同的主题，信息量较大。为了以后按图索骥，继续深入学习，特在这里花了些时间梳理了一下各章节的脉络和专业词汇/人名，供大家参考。

章节	概述	关键字
第1章　文字和语言 vs 数字和信息	人们在自然语言处理里曾经走过弯路——过于关注句法和文本分析。但这种方法复杂度过大且无法很好适配新句法，1970s后人们提出基于[通信系统]和[隐含马尔科夫模型]的自然语言处理方法。而随着计算机技术的发展，[统计]方法更为人所知，在工业界广泛应用[数据挖掘/网页搜索/语音识别/机器翻译]	机器智能图灵测试隐含马尔科夫模型 FrederickJelinek IBM华生实验室 PeterBrown
第2章　自然语言处理——从规则到统计		机器智能图灵测试隐含马尔科夫模型 FrederickJelinek IBM华生实验室 PeterBrown
第3章　统计语言模型	用统计的方法做自然语言处理，不再深究句法是否合理，而是统计哪一种句法在语料库里最常出现。依据[马尔代夫假设]/条件概率，统计语言模型的计算变得更加简单有效，逐渐在分词、语音识别、机器学习里大展头角。	达特茅斯会议马尔科夫假设马尔科夫链隐含马尔科夫模型二元模型 BigramModel 语料库大数定理 Rosetta
第4章　谈谈中文分词	[统计语言模型]虽然有效，但在实际工作中需要更高效的算法。 [通信模型]的引入，把自然语言处理等价于通信模型的解码问题。结合[隐含马尔科夫模型]。让分词问题/多义词问题，成为[更小范围]内的条件概率，提高了运算效率	查字典最少次数的分词理论分词二义性郭进动态规划孙茂松吴德凯
第5章　隐含马尔可夫模型		通信模型 LenoardBaum 随机变量随机过程独立输出假设维特比算法语音识别
第6章　信息的度量和作用	引入[信息熵]概念，把[信息]与[不确定性]结合起来。减少信息[不确定性]，其实是一个条件概率(已知Y，若X/Y相关，则能更了解X)，为[互信息]	香农信息熵比特信息量冗余度通信的数学原理消除不确定性联合概率分布条件概率分布互信息语料 DavidYarowsky
第7章　贾里尼克和现代语言处理	人物传记	信息六要素 RomanJakobson 最大熵迭代算法 BCJR算法维特比算法 ICASSP CLSP
第8章　简单之美-布尔代数和搜索引擎的索引	搜索的核心：按[图]下载尽可能多的网页，用[TRUE/FALSE]建立网页关键词的索引，利用[PageRank]决定排序，再通过[TF-IDF]衡量关键词权重，提高查询与网页之间的[相关性]	二进制布尔代数 GottfriedLeibniz 二进制计算机香农量子力学离散数学索引分布式存储
第9章　图论和网络爬虫		离散数学数理逻辑/布尔运算图遍历Traverse 广度优先搜索深度优先搜索弧网络爬虫散列表HashTable
第10章　PageRank -Google的民主表决式网名		网页质量信息 PageRank 民主表决链接权重稀疏矩阵计算系统论信息检索课程
第11章　如何确定网页和查询的相关性		概率模型 TF-IDF 关键词权重词频停止词 KarenSparckJones 文献学学报交叉熵 Kullback-LeiblerDivergence
第12章　有限状态机和动态规划——地图和本地搜索的最基本技术	利用[有限状态机]进行地址分析(省/市/县定位识别)，又因为有些地址不标准，要用到[基于概率的马尔科夫链]进行分析。而在两个地址之间规划路线，采用[图]里的[动态规划]进行快速检索	有限状态机有向图有向弧开始状态终止状态模糊匹配基于概率的有限状态机离散的马尔科夫链 AT&T 加权图最短路径动态规划DynamicProgramming
第13章　Google AK-47 的设计者 — 阿米特·士	人物传记：寻找简单有效的解决方法	AmitSinghal Ascorer 网络搜索中的作弊问题模型压缩简单方法的有效性 UdiManber 文本的句法分析机器学习分析不好的结果
第14章　余弦定理和新闻的分类	对于新闻分类，利用TF-IDF描绘新闻文本（特征向量），认为向量夹角(余弦定理)可以描述两者间的相关性。但当向量过大时，需要引用[矩阵]中的[奇异值分解]，以缩减计算过程。另外，由于数据量过大，工业界在研究如MapReduce等并行算法。	新闻自动分类 TF-IDF 特征向量特征向量之间的相似性向量代数余弦定理余弦相似性自底向上不断合并 RaduFlorian 自动分类论文评审
第15章　矩阵运算和文本处理中的两个分类问题		数值分析线性代数矩阵奇异值分解 SVD 加权词频矩阵特征值数值分析奇异值分解的并行算法
第16章　信息指纹及其应用	在[网络爬虫]时，要在[散列表]中记录曾经访问过的网址。当长文本不利于数据匹配，为了效率，利用[伪随机数产生器]，将信息变为二进制随机数。这个可用于[加密]、[文章相似度匹配]等领域	信息熵无损压缩编码散列表随机映射 128位二进制信息指纹伪随机数产生器算法 PRNG 梅森旋转算法Mersenne Twister 加密的伪随机数产生器CSPRNG 判断集合基本相同想死哈希关键帧的提取视频特征提取
第17章　由电视剧《暗算》所想到的 — 谈谈原理		凯撒大帝信息论跳舞的小人反函数自变量亚德利HerbertOsborneYardley 中国黑室公开秘钥 RSA算法 Rabin算法互素公约数
第18章　闪光的不一定是金子	除了排序和看相关性以外，要排除噪音[搜索引擎作弊]和判断搜索结果的[权威性]。对噪音消除做[解卷积]，对全文进行[句法分析]，找到[提及]信息，判断信息源的权威性	网页排名作弊反作弊重复关键词买买链接通信模型抗噪声振幅相反汽车噪声解卷积卷积相关性高斯白噪声抗干扰出链余弦距离图论 Clique 去噪音搜索结果权威性提及句法分析信息源描述互信息聚合收敛
第19章　谈谈数学模型的重要性	通过天文学的例子再次强调数学模型的重要性	椭圆模型
第20章　不要把鸡蛋放到一个篮子里 — 谈谈型	最大熵模型，即保留却不得不确定性，这是[指数模型]。在很多地方都用到	最大熵椭圆模型 AT&T 不确定性指数模型 I.Csiszar 归一化因子 AdwaitRatnaparkhi 词性标识系统句法分析器对冲基金文艺复兴技术公司
第21章　拼音输入法的数学原理	输入法的效率，利用词和上下文相关性提高效率。涉及[动态规划]及[语料库]	平均击键次数消除歧义香浓第一定理信息熵词库语言模型概率论动态规划通信问题有向图
第22章　自然语言处理的教父马库斯和他的学生	介绍一些科学家的研究思路	MitchMarcus LDC语料库句子分析分析器柯林斯基于变换规则的机器学习方法词性标注
第23章　布隆过滤器	用于判断一个元素是否在一个集合里	散列表布隆过滤器二进制向量随机映射信息指纹垃圾邮件过滤
第24章　马尔可夫链的扩展 — 贝叶斯网络	介绍[马尔科夫]系列推广。如[贝叶斯网络]是马尔科夫链的推广，解决多个节点的概率计算，在[分词]上有卓越成就。而[条件随机场]类似于[贝叶斯网络]，只不过它属于[无向图]，与[最大熵]联系起来。另外，[括括号]把[文法分析]与数学模型关联起来，更有效进行文本分析。	贝叶斯网路可信度贝叶斯公式联合概率分布结构训练参数训练 NP完备问题词分类文本分类 Rephil局部最优蒙特卡罗方法 EM过程
第25章　条件随机场和句法分析		联合概率分布文法分析语义分析拉纳帕提括括号最大熵模型对数函数浅层分析条件随机场无向图隐含马尔科夫模型边缘分布大数定理指数函数 Gparser 犯罪预测模式识别机器学习生物统计预防犯罪率
第26章　维特比和他的维特比算法	[维特比算法]属于[动态规划算法]，针对[篱笆网络]这种特殊的图，可解决大多[隐含马尔科夫链]的模型。	AndrewViterbi 高通动态规划篱笆网络有向图最短路径隐含马尔科夫模型状态跳跃状态自环输入法解码扩频传输噪音时分多址频分多址 FDMA TDMA CDMA 高通公司
第27章　再谈文本自动分类问题 — 期望最大化算法	介绍了如Kmeans聚类，逻辑回归，分布式运算、人工神经网络的基础内容。	期望最大化文本自动分类自底向上文本中心收敛迭代
第28章　逻辑回归和搜索广告		逻辑回归一层的人工神经网络训练最大熵模型 IIS
第29章　各个击破算法和Google 云计算的基础		分治算法各个击破 MapReduce 归并排序
第30章　Google大脑和人工神经网络		深度学习 Google大脑有向元贝叶斯网络人工神经网络
第31章　大数据		切比雪夫不等式

posted @ 2016-03-20 13:21 尾巴AR 阅读(1149) 评论(0) 收藏举报

刷新页面返回顶部

尾巴AR

微信公众号@尾巴说数

数据分析？他们早就开始用了——数学之美读书笔记

公告