94julia

2013年4月4日

摘要：让我再一次比较完整的重复一下我们要解决的问题：我们有属于两个类别的样本点（并不限定这些点在二维空间中）若干，如图，圆形的样本点定为正样本（连带着，我们可以把正样本所属的类叫做正类），方形的点定为负例。我们想求得这样一个线性函数（在n维空间中的线性函数）：g(x)=wx+b使得所有属于正类的点x+代入以后有g(x+)≥1，而所有属于负类的点x-代入后有g(x-)≤-1（之所以总跟1比较，无论正一还是负一，都是因为我们固定了间隔为1，注意间隔和几何间隔的区别）。代入g(x)后的值如果在1和-1之间，我们就拒绝判断。求这样的g(x)的过程就是求w（一个n维向量）和b（一个实数）两个参数的过程（但实际阅读全文

posted @ 2013-04-04 21:04 94julia 阅读(270) 评论(1) 推荐(1) 编辑

SVM入门（五）线性分类器的求解——问题的描述Part2

摘要：从最一般的定义上说，一个求最小值的问题就是一个优化问题（也叫寻优问题，更文绉绉的叫法是规划——Programming），它同样由两部分组成，目标函数和约束条件，可以用下面的式子表示：（式1）约束条件用函数c来表示，就是constrain的意思啦。你可以看出一共有p+q个约束条件，其中p个是不等式约束，q个等式约束。关于这个式子可以这样来理解：式中的x是自变量，但不限定它的维数必须为1（视乎你解决的问题空间维数，对我们的文本分类来说，那可是成千上万啊）。要求f(x)在哪一点上取得最小值（反倒不太关心这个最小值到底是多少，关键是哪一点），但不是在整个空间里找，而是在约束条件所划定的一个有限的空间里阅读全文

posted @ 2013-04-04 21:00 94julia 阅读(203) 评论(1) 推荐(1) 编辑

SVM入门（四）线性分类器的求解——问题的描述Part1

摘要：上节说到我们有了一个线性分类函数，也有了判断解优劣的标准——即有了优化的目标，这个目标就是最大化几何间隔，但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法，这是怎么回事呢？回头再看看我们对间隔和几何间隔的定义：间隔：δ=y(wx+b)=|g(x)|几何间隔：可以看出δ=||w||δ几何。注意到几何间隔与||w||是成反比的，因此最大化几何间隔与最小化||w||完全是一回事。而我们常用的方法并不是固定||w||的大小而寻求最大几何间隔，而是固定间隔（例如固定为1），寻找最小的||w||。而凡是求一个函数的最小值（或最大值）的问题都可以称为寻优问题（也叫作一个规阅读全文

posted @ 2013-04-04 20:57 94julia 阅读(187) 评论(1) 推荐(1) 编辑

SVM入门（三）线性分类器Part 2

摘要： SVM入门（三）线性分类器Part 2上回说到对于文本分类这样的不适定问题（有一个以上解的问题称为不适定问题），需要有一个指标来衡量解决方案（即我们通过训练建立的分类模型）的好坏，而分类间隔是一个比较好的指标。在进行文本分类的时候，我们可以让计算机这样来看待我们提供给它的训练样本，每一个样本由一个向量（就是那些文本特征所组成的向量）和一个标记（标示出这个样本属于哪个类别）组成。如下：Di=(xi,yi)xi就是文本向量（维数很高），yi就是分类标记。在二元的线性分类中，这个表示分类的标记只有两个值，1和-1（用来表示属于还是不属于这个类）。有了这种表示法，我们就可以定义一个样本点到某个超平面的阅读全文

posted @ 2013-04-04 20:54 94julia 阅读(295) 评论(0) 推荐(1) 编辑

SVM入门（二）线性分类器Part 1

摘要： SVM入门（二）线性分类器Part 1线性分类器(一定意义上,也可以叫做感知机) 是最简单也很有效的分类器形式.在一个线性分类器中,可以看到SVM形成的思路,并接触很多SVM的核心概念.用一个二维空间里仅有两类样本的分类问题来举个小例子。如图所示C1和C2是要区分的两个类别，在二维平面中它们的样本如上图所示。中间的直线就是一个分类函数，它可以将两类样本完全分开。一般的，如果一个线性函数能够将样本完全正确的分开，就称这些数据是线性可分的，否则称为非线性可分的。什么叫线性函数呢？在一维空间里就是一个点，在二维空间里就是一条直线，三维空间里就是一个平面，可以如此想象下去，如果不关注空间的维数，这种线阅读全文

posted @ 2013-04-04 20:53 94julia 阅读(335) 评论(1) 推荐(1) 编辑

SVM入门（一）SVM的八股简介

摘要：（一）SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力[14]（或称泛化能力）。以上是经常被有关SVM 的学术文献引用的介绍，有点八股，我来逐一分解并解释一下。　.. 阅读全文

posted @ 2013-04-04 20:49 94julia 阅读(325) 评论(1) 推荐(1) 编辑

2013年4月1日

深入浅出K-Means算法

摘要：在数据挖掘中，K-Means算法是一种cluster analysis的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。问题K-Means算法主要解决的问题如下图所示。我们可以看到，在图的左边有一些点，我们用肉眼可以看出来有四个点群，但是我们怎么通过计算机程序找出这几个点群来呢？于是就出现了我们的K-Means算法（Wikipedia链接）K-Means要解决的问题算法概要这个算法其实很简单，如下图所示：从上图中，我们可以看到，A，B，C，D，E是五个在图中点。而灰色的点是我们的种子点，也就是我们用来找点群的点。有两个种子点，所以K=2。然后，K-Means的算法如阅读全文

posted @ 2013-04-01 15:06 94julia 阅读(307) 评论(0) 推荐(0) 编辑

用HTML5 Audio API开发游戏音乐

摘要：介绍音频在很大程度上使得多媒体体验非常引人注目。如果你曾经尝试在关闭声音的情况下看电影，你就很可能已经注意到了这一点。游戏也不例外！我最喜爱的视频游戏的回忆里包含了音乐和声效。在二十年后的今天，大多情况下，当玩我最爱的游戏时，我仍然不能把“塞尔达”里近藤浩二的乐曲和马特大气的暗黑配乐从我的头脑里驱逐掉。这同样适用于音效，例如魔兽里单位实时点击的响应，以及任天堂的经典例子。游戏的音频提出了一些有趣的挑战。要创建令人着迷的游戏音乐，设计人员需要调节潜在的不可预知的状态。实际上，部分游戏能持续未知的时间长度，声音可以与环境互动，并以复杂的方式混合起来，例如室内效果和相对声音定位。... 阅读全文

posted @ 2013-04-01 11:37 94julia 阅读(284) 评论(0) 推荐(0) 编辑

Hadoop源代码分析（六）

摘要：既然是RPC，自然就有客户端和服务器，当然，org.apache.hadoop.rpc也就有了类Client和类Server。在这里我们来仔细考察org.apache.hadoop.rpc.Client。下面的图包含了org.apache.hadoop.rpc.Client中的关键类和关键方法。由于Client可能和多个Server通信，典型的一次HDFS读，需要和NameNode打交道，也需要和某个/某些DataNode通信。这就意味着某一个Client需要维护多个连接。同时，为了减少不必要的连接，现在Client的做法是拿ConnectionId（图中最右侧）来做为Connecti... 阅读全文

posted @ 2013-04-01 11:00 94julia 阅读(128) 评论(0) 推荐(0) 编辑

Hadoop源代码分析（五）

摘要：介绍完org.apache.hadoop.io以后，我们开始来分析org.apache.hadoop.rpc。RPC采用客户机/服务器模式。请求程序就是一个客户机，而服务提供程序就是一个服务器。当我们讨论HDFS的，通信可能发生在：Client-NameNode之间，其中NameNode是服务器Client-DataNode之间，其中DataNode是服务器DataNode-NameNode之间，其中NameNode是服务器DataNode-DateNode之间，其中某一个DateNode是服务器，另一个是客户端如果我们考虑Hadoop的Map/Reduce以后，这些系统间的通信就更复... 阅读全文

posted @ 2013-04-01 10:25 94julia 阅读(166) 评论(0) 推荐(0) 编辑

公告