数据分析?他们早就开始用了——数学之美读书笔记
数据分析?他们早就开始用了?
标题取得很好听,其实就是《数学之美》这本书的读书笔记。这是每一个想学编程了解计算机的人都不应该错过的好书,必须推荐
光
看这个名字,你可能以为它就是一本讲数学的书,觉得无聊而直接就想扔掉。但它其实是一本非常适合于机器学习和算法入门的计算机科普书籍。作者把他搞各种科
研,以及在GOOGLE多年工作的所见所闻,都浓缩在这本书里,用浅显易懂的语言,给我们做了一次机器学习科普,厘清了各种概念数学原理算法的前世今生,
还明白它们怎么在搜索领域、自然语言识别领域大放光彩。
那么话题扯回来,为什么看完这本书,会有种——数据分析,他们早就开始在做——的感觉呢?
事实上,虽然近些年来数据分析数据挖掘机器学习的概念特别特别火,可能很多人会以为这是近几年才渐渐重视起来并形成一套套方法论的新东西。但是其实早在计算机设计的初端,数据分析与挖掘,就应用于写代码搞算法的方方面面了。
抽象点来说,是算各种算法的复杂度。具体一点,从一个google搜索引擎的开发,需要科研人员反反复复去衡量计算机资源与产品效果间的最佳解,到在各种开发中不停地追求打字速度最优,分析瓶颈,都是统计数据、分析问题、抽象解决的老三套。曾听人吐槽说,“根本没有什么新的数据科学家,很多学科本来就是建立在数据统计与分析基础上的,数据科学家一直就存在”。
正因如此,我们可以说,数据分析和挖掘,早就被应用在计算机科学的方方面面了。所以脱离了编程和对计算机理解的机器学习和数据分析是在耍流氓。反而来,如果数据分析学习遇到瓶颈,通过进一步学习算法及其实际应用,了解数据结构和设计,了解编程,也许能更快速得突破瓶颈期。
而以上这些思考,正是《数学之美》里向我们展示的神奇世界。
另外,在这本书里,作者还把他这些年科研的各种经验道理,穿插在一个个案例中讲述。譬如说,“简单模型在工业界的实用性”,认为“学技术学‘道’比学‘术’更加重要”等等。他还反复强调要多分析异常结果,认为简单有效的解决方案,往往建立在对细节充分的研究以及思考上。这些对于经验不足的人,确实是十分宝贵的财富。
说到最后,我反正是认认真真把这本书看完了。但是由于《数学之美》有三十一个章节,几乎每个章节都在讲不同的主题,信息量较大。为了以后按图索骥,继续深入学习,特在这里花了些时间梳理了一下各章节的脉络和专业词汇/人名,供大家参考。
章节 | 概述 | 关键字 |
第1章 文字和语言 vs 数字和信息 | 人们在自然语言处理里曾经走过弯路——过于关注句法和文本分析。但这种方法复杂度过大且无法很好适配新句法,1970s后人们提出基于[通信系统]和[隐含马尔科夫模型]的自然语言处理方法。而随着计算机技术的发展,[统计]方法更为人所知,在工业界广泛应用[数据挖掘/网页搜索/语音识别/机器翻译] | 机器智能 图灵测试 隐含马尔科夫模型 FrederickJelinek IBM华生实验室 PeterBrown |
第2章 自然语言处理——从规则到统计 | ||
第3章 统计语言模型 | 用统计的方法做自然语言处理,不再深究句法是否合理,而是统计哪一种句法在语料库里最常出现。 依据[马尔代夫假设]/条件概率,统计语言模型的计算变得更加简单有效,逐渐在分词、语音识别、机器学习里大展头角。 |
达特茅斯会议
马尔科夫假设 马尔科夫链 隐含马尔科夫模型 二元模型 BigramModel 语料库 大数定理 Rosetta |
第4章 谈谈中文分词 | [统计语言模型]虽然有效,但在实际工作中需要更高效的算法。 [通信模型]的引入,把自然语言处理等价于通信模型的解码问题。结合[隐含马尔科夫模型]。让分词问题/多义词问题,成为[更小范围]内的条件概率,提高了运算效率 |
查字典 最少次数的分词理论 分词二义性 郭进 动态规划 孙茂松 吴德凯 |
第5章 隐含马尔可夫模型 | 通信模型 LenoardBaum 随机变量 随机过程 独立输出假设 维特比算法 语音识别 | |
第6章 信息的度量和作用 | 引入[信息熵]概念,把[信息]与[不确定性]结合起来。减少信息[不确定性],其实是一个条件概率(已知Y,若X/Y相关,则能更了解X),为[互信息] | 香农 信息熵 比特 信息量 冗余度 通信的数学原理 消除不确定性 联合概率分布 条件概率分布 互信息 语料 DavidYarowsky |
第7章 贾里尼克和现代语言处理 | 人物传记 | 信息六要素 RomanJakobson 最大熵迭代算法 BCJR算法 维特比算法 ICASSP CLSP |
第8章 简单之美-布尔代数和搜索引擎的索引 | 搜索的核心:按[图]下载尽可能多的网页,用[TRUE/FALSE]建立网页关键词的索引,利用[PageRank]决定排序,再通过[TF-IDF]衡量关键词权重,提高查询与网页之间的[相关性] | 二进制 布尔代数 GottfriedLeibniz 二进制计算机 香农 量子力学 离散数学 索引 分布式存储 |
第9章 图论和网络爬虫 | 离散数学 数理逻辑/布尔运算 图 遍历Traverse 广度优先搜索 深度优先搜索 弧 网络爬虫 散列表HashTable | |
第10章 PageRank -Google的民主表决式网名 | 网页质量信息 PageRank 民主表决 链接权重 稀疏矩阵计算 系统论 信息检索课程 | |
第11章 如何确定网页和查询的相关性 | 概率模型 TF-IDF 关键词权重 词频 停止词 KarenSparckJones 文献学学报 交叉熵 Kullback-LeiblerDivergence | |
第12章 有限状态机和动态规划——地图和本地搜索的最基本技术 | 利用[有限状态机]进行地址分析(省/市/县定位识别),又因为有些地址不标准,要用到[基于概率的马尔科夫链]进行分析。而在两个地址之间规划路线,采用[图]里的[动态规划]进行快速检索 | 有限状态机 有向图 有向弧 开始状态 终止状态 模糊匹配 基于概率的有限状态机 离散的马尔科夫链 AT&T 加权图 最短路径 动态规划DynamicProgramming |
第13章 Google AK-47 的设计者 — 阿米特·士 | 人物传记:寻找简单有效的解决方法 | AmitSinghal Ascorer 网络搜索中的作弊问题 模型压缩 简单方法的有效性 UdiManber 文本的句法分析 机器学习 分析不好的结果 |
第14章 余弦定理和新闻的分类 | 对于新闻分类,利用TF-IDF描绘新闻文本(特征向量),认为向量夹角(余弦定理)可以描述两者间的相关性。但当向量过大时,需要引用[矩阵]中的[奇异值分解],以缩减计算过程。另外,由于数据量过大,工业界在研究如MapReduce等并行算法。 | 新闻自动分类 TF-IDF 特征向量 特征向量之间的相似性 向量代数 余弦定理 余弦相似性 自底向上不断合并 RaduFlorian 自动分类 论文评审 |
第15章 矩阵运算和文本处理中的两个分类问题 | 数值分析 线性代数 矩阵 奇异值分解 SVD 加权词频 矩阵特征值 数值分析 奇异值分解的并行算法 | |
第16章 信息指纹及其应用 | 在[网络爬虫]时,要在[散列表]中记录曾经访问过的网址。当长文本不利于数据匹配,为了效率,利用[伪随机数产生器],将信息变为二进制随机数。这个可用于[加密]、[文章相似度匹配]等领域 | 信息熵 无损压缩编码 散列表 随机映射 128位二进制 信息指纹 伪随机数产生器算法 PRNG 梅森旋转算法Mersenne Twister 加密的伪随机数产生器CSPRNG 判断集合基本相同 想死哈希 关键帧的提取 视频特征提取 |
第17章 由电视剧《暗算》所想到的 — 谈谈原理 | 凯撒大帝 信息论 跳舞的小人 反函数 自变量 亚德利HerbertOsborneYardley 中国黑室 公开秘钥 RSA算法 Rabin算法 互素 公约数 | |
第18章 闪光的不一定是金子 | 除了排序和看相关性以外,要排除噪音[搜索引擎作弊]和判断搜索结果的[权威性]。对噪音消除做[解卷积],对全文进行[句法分析],找到[提及]信息,判断信息源的权威性 | 网页排名作弊 反作弊 重复关键词 买买链接 通信模型 抗噪声 振幅相反 汽车噪声 解卷积 卷积 相关性 高斯白噪声 抗干扰 出链 余弦距离 图论 Clique 去噪音 搜索结果权威性 提及 句法分析 信息源描述 互信息 聚合 收敛 |
第19章 谈谈数学模型的重要性 | 通过天文学的例子再次强调数学模型的重要性 | 椭圆模型 |
第20章 不要把鸡蛋放到一个篮子里 — 谈谈型 | 最大熵模型,即保留却不得不确定性,这是[指数模型]。在很多地方都用到 | 最大熵 椭圆模型 AT&T 不确定性 指数模型 I.Csiszar 归一化因子 AdwaitRatnaparkhi 词性标识系统 句法分析器 对冲基金 文艺复兴技术公司 |
第21章 拼音输入法的数学原理 | 输入法的效率,利用词和上下文相关性提高效率。涉及[动态规划]及[语料库] | 平均击键次数 消除歧义香浓第一定理 信息熵 词库 语言模型 概率论 动态规划 通信问题 有向图 |
第22章 自然语言处理的教父马库斯和他的学生 | 介绍一些科学家的研究思路 | MitchMarcus LDC语料库句子分析 分析器 柯林斯 基于变换规则的机器学习方法 词性标注 |
第23章 布隆过滤器 | 用于判断一个元素是否在一个集合里 | 散列表 布隆过滤器 二进制向量 随机映射 信息指纹 垃圾邮件过滤 |
第24章 马尔可夫链的扩展 — 贝叶斯网络 | 介绍[马尔科夫]系列推广。如[贝叶斯网络]是马尔科夫链的推广,解决多个节点的概率计算,在[分词]上有卓越成就。而[条件随机场]类似于[贝叶斯网络],只不过它属于[无向图],与[最大熵]联系起来。另外,[括括号]把[文法分析]与数学模型关联起来,更有效进行文本分析。 | 贝叶斯网路 可信度 贝叶斯公式 联合概率分布 结构训练 参数训练 NP完备问题 词分类 文本分类 Rephil局部最优 蒙特卡罗方法 EM过程 |
第25章 条件随机场和句法分析 | 联合概率分布 文法分析 语义分析 拉纳帕提 括括号 最大熵模型 对数函数 浅层分析 条件随机场 无向图 隐含马尔科夫模型 边缘分布 大数定理 指数函数 Gparser 犯罪预测 模式识别 机器学习 生物统计 预防犯罪率 | |
第26章 维特比和他的维特比算法 | [维特比算法]属于[动态规划算法],针对[篱笆网络]这种特殊的图,可解决大多[隐含马尔科夫链]的模型。 | AndrewViterbi 高通 动态规划 篱笆网络 有向图最短路径 隐含马尔科夫模型 状态跳跃 状态自环 输入法解码 扩频传输 噪音 时分多址 频分多址 FDMA TDMA CDMA 高通公司 |
第27章 再谈文本自动分类问题 — 期望最大化算法 | 介绍了如Kmeans聚类,逻辑回归,分布式运算、人工神经网络的基础内容。 | 期望最大化 文本自动分类 自底向上 文本中心 收敛 迭代 |
第28章 逻辑回归和搜索广告 | 逻辑回归 一层的人工神经网络 训练最大熵模型 IIS | |
第29章 各个击破算法和Google 云计算的基础 | 分治算法 各个击破 MapReduce 归并排序 | |
第30章 Google大脑和人工神经网络 | 深度学习 Google大脑 有向元 贝叶斯网络 人工神经网络 | |
第31章 大数据 | 切比雪夫不等式 |