Boostable

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  信息时代的计算机科学理论

机器学习书籍《Computer Science Theory for the Information Age》的读书笔记。
摘要:VC定理的证明 本文讨论VC理论的证明,其主要内容就是证明VC理论的两个定理,所以内容非常的枯燥,但对于充实一下自己的理论知识也是有帮助的。另外,VC理论属于比较难也比较抽象的知识,所以我总结的这些证明难免会有一些错误,希望各位能够帮我指出。(一)简单版本的VC理论。 给定一个集合系统$(U,\ma... 阅读全文
posted @ 2014-05-03 21:06 Boostable 阅读(2662) 评论(1) 推荐(1) 编辑

摘要:学习理论——VC维的定义以及一些例子 本文主要介绍一些学习理论上的东西。首先,我们得明确,从训练集上学习出来的分类器的最终目标是用于预测未知的样本,那么我们在训练的时候该用多少的样本才能使产生的分类器的效果尽可能的好呢?这些就是VC-理论要解决的问题。在介绍这个理论之前,我们得先介绍一个比较抽象的概... 阅读全文
posted @ 2014-05-02 19:45 Boostable 阅读(6315) 评论(0) 推荐(3) 编辑

摘要:一些机器学习算法的简介 本节开始,介绍《Computer Science Theory for the Information Age》一书中第六章(这里先暂时跳过第三章),主要涉及学习以及学习的理论——VC理论。而本文主要是介绍一下什么是学习,以及一些常见的学习算法。(一)学习概念 首先,我们用一个例子来介绍什么是学习。假设我们想要用一个算法来识别不同类型的车,比如小汽车、卡车、拖拉机等。根据我们的思维以及对这个领域的知识可知道,我们可以用一系列特征来区分它们,比如我们可以用轮子的数量,发动机的动力,门的数量,车的长度,座位的数量等等来区分。假如我们有$d$个特征,那么我们可以用一个$d$- 阅读全文
posted @ 2014-04-02 20:49 Boostable 阅读(1528) 评论(3) 推荐(0) 编辑

摘要:高维空间中的高斯分布和随机投影(一)在高维球体表面产生均匀分布点的方法 我们来考虑一个采样问题,就是怎样在高维单位球体的表面上均匀的采样。首先,考虑二维的情况,就是在球形的周长上采样。我们考虑如下方法:第一,先在一个包含该圆形的外接正方形内均匀的采样;第二,将采样到的点投影到圆形上。具体地说就是,第一,先独立均匀的从区间$[-1,1]$(我们假设圆形跟正方形的中心点都在原点)内产生两个值组成一个二维的点$(x_1,x_2)$;第二,将该二维点投影到圆形上。例如,如下图所示,如果我们产生点是图中的A,B两点,那么投影到圆形上就是C点,如果产生的是点D,那么投影到圆形上就是E点。但是,用这样的方法 阅读全文
posted @ 2014-03-22 20:52 Boostable 阅读(4797) 评论(0) 推荐(2) 编辑

摘要:高维空间中的正方体和Chernoff Bounds 本文将介绍高维空间中正方体的一些性质,以及一个非常常见也是非常有用的概率不等式——Chernoff Bounds。 考虑$d$维单位正方体$C=\{x|0\leq x_i\leq 1,i=1,\cdots,d\}$,其中心点为$(\frac{1}{2},\cdots,\frac{1}{2})$,体积为1。现在我们将其半径收缩到$1-\frac{c}{d}$,其体积为$(1-\frac{c}{d})^d\leq e^{-c}$,所以当$d$很大时,高维正方体的体积总是分布在其边缘地带。 定义超平面$H=\{x|\sum_{i=1}^dx_i=\ 阅读全文
posted @ 2014-03-16 18:27 Boostable 阅读(1047) 评论(0) 推荐(0) 编辑

摘要:高维空间中的球体 注:此系列随笔是我在阅读图灵奖获得者John Hopcroft的最新书籍所作的笔记。其中我只详细读了第二(高维空间)、三(随机图)、六(VC理论)章,其他的某些章节也略微看了一下,但没有作笔记。此书的章节大部分是相互独立的,事实上每一个章节都是一个大的方向,代表了作者认为的在信息时代中最有用的计算机理论。(一)介绍 第一部分,高维空间。在现实的世界里,很多数据的维度都是及其高的,而当维度增高时,很多在低维中的性质在高维中似乎不太一样了。比如当维度趋近无穷时,单位超球的体积趋于0,而其面积大都集中在超球的赤道附近(equator)。 首先,来看一下在现实中有那些数据是高维的。第 阅读全文
posted @ 2014-03-13 22:53 Boostable 阅读(8495) 评论(2) 推荐(3) 编辑