posts - 3,  comments - 0,  trackbacks - 0

分类器提升精确度主要就是通过组合,综合多个分类器结果,对最终结果进行分类。

 

组合方法主要有三种:装袋(bagging),提升(boosting)和随即森林。

装袋和提升方法的步骤:

1,基于学习数据集产生若干训练集

2,使用训练集产生若干分类器

3,每个分类器进行预测,通过简单选举(装袋)或复杂选举(提升),判定最终结果。

 

如上图所示,对数据集D,取得D1~Dk个子集,然后用M1~Mk个不同分类器进行分类训练,然后用测试集(新元组)得到预测结果,

最后对这k个结果使用少数服从多数原则判定。如用99种分类方法得到55个结果是1,44个结果是0,则判定最终结果为1。

 

 

在提升(boosting)算法中,可以看成是装袋的改进,即可以理解为加权投票。这里具体介绍adaptive boosting算法

该算法基本和袋装一致,就是新引入一个权重的概念,首先,在(1)初始化中,权重1/d,即每个元组(Di)权重一致,在地(9)~(11)步中,

对权重进行不断刷新,这里我们可以发现,被正确分类的元组的权重是一直乘以一个小于1的数,即被正确分类的元组,在被选为训练集Di的可能性降低,

分类器会关注“难以分类”的数据。我们是基于一个“某种分类器可能对某种特定的数据分类效果好”的信念上。

补充:元组概念:元组就是最小数据单位,比如人是一个元组,有身高,体重等属性。

 

在对数据进行训练后,就是用组合分类器。

 

这里我们看到,有出现一个权重,分类器的投票的权重,这个权重是依照分类器的准确率(错误率越低,权重越高)。

 

接下来是介绍决策树的提升算法:随机森林。

 随机森林实际非常直观,就是用上文提到的随机装袋方法,对每个Di构建决策数,这里用CART算法建树(只需要计算Gini指数),不剪枝。

然后对让森林里所有的树进行投票即可。

 

附上R语言的随机森林事例:

1
2
3
4
//如果没有安装randomForest包,要先install.packages("randomForest")<br>library(randomForest)
model.forest = randomForest(Species~.,data=iris)
pre.forest=predict(model.forest,iris)
table(pre.forest,iris$Species)

  

正确率高达100%

而用单一的决策树

library(rpart)
model.tree=rpart(Species~.,data=iris,method = "class")
pre.tree=predict(model.tree,data=iris,type="class")
table(pre.tree,iris$Species)

发现有一部分数据会被判错。

 

ps:组合分类器的算法摘自韩佳炜《数据挖掘概念与技术》。

0
0
(请您对文章做出评价)
« 上一篇:因子分析——主成份算法实现补充
posted on 2015-07-06 20:25 阿咯琉斯 阅读(7) 评论(0) 编辑 收藏
<2015年7月>
2829301234
567891011
12131415161718
19202122232425
2627282930311
2345678

昵称:阿咯琉斯
园龄:9天
粉丝:0
关注:0

信号量(Semphore)

信号量(Semaphore),有时被称为信号灯,是在多线程环境下使用的一种设施,是可以用来保证两个或多个关键代码段不被并发调用。在进入一个关键代码段之前,线程必须获取一个信号量;一旦该关键代码段完成了,那么该线程必须释放信号量。其它想进入该关键代码段的线程必须等待直到第一个线程释放信号量。为了完成这个过程,需要创建一个信号量VI,然后将Acquire Semaphore VI以及Release Semaphore VI分别放置在每个关键代码段的首末端。确认这些信号量VI引用的是初始创建的信号

以一个停车场的运作为例。简单起见,假设停车场只有三个车位,一开始三个车位都是空的。这时如果同时来了五辆车,看门人允许其中三辆直接进入,然后放下车拦,剩下的车则必须在入口等待,此后来的车也都不得不在入口处等待。这时,有一辆车离开停车场,看门人得知后,打开车拦,放入外面的一辆进去,如果又离开两辆,则又可以放入两辆,如此往复。
在这个停车场系统中,车位是公共资源,每辆车好比一个线程,看门人起的就是信号量的作用。

抽象的来讲,信号量的特性如下:信号量是一个非负整数(车位数),所有通过它的线程/进程(车辆)都会将该整数减一(通过它当然是为了使用资源),当该整数值为零时,所有试图通过它的线程都将处于等待状态。在信号量上我们定义两种操作: Wait(等待) 和 Release(释放)。当一个线程调用Wait操作时,它要么得到资源然后将信号量减一,要么一直等下去(指放入阻塞队列),直到信号量大于等于一时。Release(释放)实际上是在信号量上执行加操作,对应于车辆离开停车场,该操作之所以叫做“释放”是因为释放了由信号量守护的资源。

对信号量有4种操作:

1. 初始化(initialize),也叫做建立(create):

dispatch_semaphore_t dispatch_semaphore_create( long value);

2. 等信号(wait),也可叫做挂起(suspend):

线程等待信号量,如果值大于0,则获得,值减一;如果值等于0,则线程进入睡眠状态,只到信号量值大于0或者超时。

long dispatch_semaphore_wait( dispatch_semaphore_t dsema,  dispatch_time_t timeout); 

如果返回的结果是0说明线程线程被成功唤醒,非0说明超时;

3. 给信号(signal)或发信号(post):

执行释放信号量,则值加一;如果此时有正在等待的线程,则唤醒该线程。

long dispatch_semaphore_signal( dispatch_semaphore_t dsema);

如果返回的是非零的数字则说明有一个线程被唤醒,返回0则说明没有线程被唤醒(说明没有wait的线程)

4.清理(destroy):

 dispatch_release(object) //在ARC中不需要此步骤

示例代码

- (void)testSemaphore{
    dispatch_group_t group = dispatch_group_create();  
    dispatch_semaphore_t semaphore = dispatch_semaphore_create(2);  
    dispatch_queue_t queue = dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0);  
    for (int i = 0; i < 100; i++)  
    {
        long l1 = dispatch_semaphore_wait(semaphore, DISPATCH_TIME_FOREVER);  
        NSLog(@"l1:%ld",l1);  
        NSLog(@"semaphore:%@",semaphore.accessibilityValue);  
        dispatch_group_async(group, queue, ^{  
            NSLog(@"%i",i);  
            sleep(2);  
            long l2 = dispatch_semaphore_signal(semaphore);  
            NSLog(@"l2:%ld",l2);  
        });  
    }  
    dispatch_group_wait(group, DISPATCH_TIME_FOREVER);  
}
posted on 2016-11-29 14:35  大煜  阅读(199)  评论(0编辑  收藏  举报