数学之美——信息论,搜索引擎,自然语言处理,统计学习方法的完美结合
《数学之美》给我最大的启发就是将信息论引入机器学习的领域。全书围绕信息论展开,分别对统计语言模型,自然语言处理,搜索引擎进行深入的分析。
(1) 信息论。一条信息的信息量和它的不确定性有着直接的关系。比如说,如果我们只知道A+B=10,那么我们无法得出A=5的概率。但是当我们知道某些其他的信息时,我们就可以推测出A=5的概率。当我们已知B=5时,A=5的概率为1。当我们已知B为小于等于10的正整数时,A=5的概率为1/10.当我们已知C的信息时,我们还是无法推测A出现的概率。从这三个例子可以看出,不同的信息会对A产生不同的影响。信息论中用信息熵来度量这种不确定性。信息熵越大,不确定性越高。信息熵在机器学习中有着重要的运用。比如决策树的构建就是运用信息增益或者信息增益比来选择特征。另外,信息论中最重要的一个模型就是最大熵模型。该模型是基于经验风险最小化理论提出,最大可能的保留对未知事件发生的不确定性。比如投个硬币,我们会毫不犹豫的说正面出现和反面出现的概率都是1/2。事实上,我们在无形之中运用了最大熵模型。
(2) 统计语言模型。全书只是对隐含马尔科夫模型,最大熵模型,贝叶斯网络,条件随机场做了简单的介绍,并没有对算法的证明,改进做深入展开。等读完《统计学习方法》,我会对这些重要的统计语言模型的算法进行深入的介绍。
(3) 自然语言处理。自然语言处理经历了从基于规则的自然语言处理到基于统计的自然语言处理。基于规则的自然语言处理是早期的一种研究手段。主要从语法规则,文法规则出发,对语句的成分进行分析。这种处理方法存在很大的缺陷:一个简单的句子居然需要几十条甚至上百条规则才能分析成功。另外,我们现今的时代是一个信息量爆炸的时代,句子的成分越来越复杂,因此基于规则的自然语言处理方法逐渐苍白无语。因此,基于统计的自然语言处理逐渐取代基于规则的自然语言处理成为了自然语言处理的主要研究手段。
(4) 搜索引擎。搜索引擎最关心的是网页排序问题。而PageRank网页排序技术和TF-IDF是网页排序的两个主要的方法。其中,PageRank网页排序技术是基于网页质量进行排序.而TF-IDF是根据网页的相关性进行排序。
本书还介绍了一些图论,路径优化,动态规划,搜索引擎反作弊等知识,这里不做展开,感兴趣的读者可以自己阅读《数学之美》
浙公网安备 33010602011771号