如何解决大量样本标注问题

       TSVM  常见的解决未标注样本的方法有EM (Expectation Maximization) 算法 ,协同训练法,Transductive SVM 方法及最大熵判别法等.    

       原文链接:http://blog.sina.com.cn/s/blog_4c98b9600100094l.html

 
        下面首先介绍一下TSVM,并以入侵检测为例介绍。在传统的ISVM中,训练SVM学习机需要大量经过标记的样本,而正确标记的样本是很难大量获取的。如果能把未标记样本的特征加入到入侵检测算法的设计中去,就可以弥补归纳式SVM带来的缺陷,获得更好的检测效果。直推式SVM 正是基于这种思想的SVM算法。
     
        TSVM是一种不依赖于推广性思想的经验推理。由于其是从特殊到特殊的推理,难以直接进行客观验证。因此,直到现在才开始得到人们研究的重视,但它已经在一些领域中(例如生物基因选择,数字识别)取得了初步结果,甚至表现出了比传统ISVM更好的性能。直推式SVM 的决策分类函数是建立在训练集Strain和测试集Stest 的基础上。
        由于径向基函数(Radial Basis Function,RBF)在高维空间分类问题中的优越表现,我们选取RBF作为SVM分类器的核函数。在TSVM学习期间,测试样本就对其施加了影响。因此,TSVM学习的结果中就包含了测试样本的数据特征。经过学习后,TSVM就会产生一个分类决策函数,即最优分类超平面。测试样本经过TSVM分类器处理后,再由入侵检测决策系统根据分类结果来判断是否有攻击行为的发生。为了尽可能将正常数据和攻击数据正确地区分,以提高入侵检测的检测率,TSVM试图寻找最优分类超平面。而TSVM的有效学习是非常重要的,其具体的学习过程如下:
        (1)TSVM根据指定的惩罚因子C和C*,利用训练数据中包含的正负标签的网络数据进行归纳式学习,得到一个比较原始的样本分类器。随后,TSVM假定训练集中无标记网络数据样本中正负样本的比例为1:1,并指定一个训练集中无标签样本的临时惩罚因子C*temp。
       (2)TSVM用得到的样本分类器对训练集中的无标签样本进行重新分类,根据分类器对无标签网络数据记录的判别结果,对无标签数据作出正负分类判决,并将判决值较大的一半样本标记为正标签,另外一半标记为负样本。
       (3)用得到的经过重新标记的训练集数据对TSVM学习机进行重新训练,得到新的分类器。然后,按一定的规则交换一对标签值不同的训练样本的标签符号,即把起初标记为正样本的未标记样本中标记为负样本,起初标记为负样本的标记为正样本,计算式(2)的值,使得问题(2)的值获得最大下降。反复执行训练样本标签的变换,直到找不出满足交换条件的样本为止。
      (4)均匀地增加未标记样本的惩罚因子C*temp的值,并重新执行步骤(3),直到C*temp≥C 时,TSVM 的学习结束。

       当TSVM终止学习后,就可以用学习得到的分类器对测试样本进行分类判别。入侵检测决策系统根据TSVM分类器分类的结果作出是否有入侵行为发生的判断。TSVM在学习的过程中,结合了大量的未标记网络数据的信息,并反复调整未标记数据对TSVM学习机的影响,以追求对无标签样本的最小分类误差。因此,基于TSVM的入侵检测系统比基于ISVM的检测系统需要更长的学习时间,但是由于结合了测试样本的影响,在对测试样本分类的准确度上也会得到一定程度的提高。
posted @ 2013-11-04 19:59  wishchin  阅读(421)  评论(0编辑  收藏  举报