摘要: KNN是最简单的机器学习算法之一。在模式识别中,K-近邻算法(或近邻的简称)是一种用于分类和回归的非参数方法。[1]在这两种情况下,输入包含k个最近的训练样本在特征空间中。输出取决于近邻是用于分类或回归:l在kNN分类中,输出的是一个分类的关系。一个对象是由其邻居投票进行分类,被分类到最近的K个最近... 阅读全文
posted @ 2015-05-18 14:37 独立寒风 阅读(19218) 评论(0) 推荐(0) 编辑
摘要: 基于能量模型(EBM)基于能量模型将关联到感兴趣的变量每个配置的标量能量。学习修改的能量函数使他它的形状具有最好的性能。例如,我们想的得到最好的参量拥有较低的能量。EBM的概率模型定义通过能量函数的概率分布,如下所示: 规则化系数Z称为分区函数和物理系统的能量模型相似。 ... 阅读全文
posted @ 2015-05-16 16:10 独立寒风 阅读(7808) 评论(1) 推荐(2) 编辑
摘要: Denoising Autoencod(去噪自编码)(DA)是一个经典的autoencode算法的扩展,在[vincent08 ]中作为深网络的构建块使用。我们将开始本教程对autoencoders简短的讨论。一个autoencode 将输入 通过 一个确定的投影方法(encode ) 投影到一个... 阅读全文
posted @ 2015-05-10 15:54 独立寒风 阅读(607) 评论(0) 推荐(0) 编辑
摘要: 学习了一下决策树算法(ID3)。 基本的理论知识: 信息熵:信息理论的鼻祖之一Claude E. Shannon(香农)把信息(熵)定义为离散随机事件的出现概率。一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样子我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。 计算公式... 阅读全文
posted @ 2014-03-04 20:20 独立寒风 阅读(366) 评论(0) 推荐(0) 编辑
摘要: adaboost算法是boosting算法的一种。boosting算法主要思想是用大量的简单的预测方法,得到一个比较准确的预测方法。譬如人脸检测中就是用的这种方法。adaboost伪代码:输入: 训练集:其中 训练的轮数T。For:初始化 //设置每组训练集的权重。开始都为1/m.For:1.对于弱分类器H,找到误判率最小的分类器 是误判率。其中 .2.如果,这里 是一个预先选择的阀值,停止训练。令3.For: 更新其中分母是标准化因子,保证是一个概率分布输出最终的分类器这个算法可以用到很多地方,不过需要选择大量的分类器。由于本人技术不是很好,欢迎来辩 阅读全文
posted @ 2014-03-02 23:26 独立寒风 阅读(890) 评论(0) 推荐(0) 编辑
摘要: 1.suricata 是一个高性能的IDS(入侵检测系统),IPS,网络安全监控引擎。该项目是一个不受益的开源项目。2.suricata 运行模式从上图我们可以看出suricata核心有3个模块1.解码线程:解码线程包括。数据包的分片重组。UDP TCP 等等头部解析2.detect线程:TCP会话重组。木马检测,协议解析,文件存储,数据包存储等等模块。其实还有一个模块做的是会话管理工作。这个只是suricata的大致分析。下面会对一些比较重要的模块进行讲解 阅读全文
posted @ 2014-03-01 21:31 独立寒风 阅读(1505) 评论(0) 推荐(0) 编辑
摘要: KD tree是一个为了组织多维数据空间分割结构体,我现在只讲一个简单的,如果我们有一组数据(2,3), (5,4), (9,6), (4,7), (8,1), (7,2).KD-TREE的操作1.构建排序第一维数据 那么就是 2,4,5,7,8,9选取第一维的中点 7 所以第一个node 就是 (7,2)左子树的节点 应该是(2,3), (5,4),(4,7)右子树 节点应该为(9,6),(8,1)再根据第二维排序第二层节点 左(5,4) 右(9,6)(如果有k维 那么第1层选取第一维做分割,第二层选取第二维度做分割。。。一直到k不过有时候可以先算一个各个维度的方差选取最大的分割,优缺点暂时 阅读全文
posted @ 2013-12-18 11:36 独立寒风 阅读(3457) 评论(1) 推荐(1) 编辑
摘要: 今天我要讲一下如何生成新的识别库请注意:在您的电脑上安装有tesseract软件和jTessBoxEditor软件系统为ubuntu下载地址:tesseract:https://code.google.com/p/tesseract-ocr/downloads/listjTessBoxEditor:http://vietocr.sourceforge.net/training.html1.新建一个文件夹test该文件夹会保存本次项目所有的文件将需要的字库图片放到test目录下,文件名为lang.fond.exp0.jpgLang为语言fond为字体我们用的是chi.test.exp0.jpg这 阅读全文
posted @ 2013-12-10 13:30 独立寒风 阅读(485) 评论(0) 推荐(0) 编辑
摘要: MDP又称马尔可夫决策过程。MDP提供了一种结果部分随机部分可控的决策制定框架,具体而言,马尔可夫决策过程是离散时间点的随机控制过程。在每一步,过程在特定的状态S,而决策者可能选择任何在状态S下可用的行动 a,过程在下一个时间点随机的进入S'状态,并且给予决策者奖励 。过程选择行为a 进入状态的可能性由状态转移函数决定,然而下一个状态S'只依赖于当前状态,而与以前的状态无关,换句话说,马尔科夫决策过程的状态转移具有markov性。马尔可夫决策过程是一个四元组。其中是有限的状态集合有限行动集合(或者,是在状态s下可以选择的行动的集合),是在状态s下时间点t执行行动a在时间点t + 阅读全文
posted @ 2013-10-16 16:11 独立寒风 阅读(670) 评论(0) 推荐(0) 编辑
摘要: Bellman-Ford是另一种单源最短路径算法,他的功能和Dijkstra算法一样。但是运行速度比Dijkstra慢。时间复杂度为O(V*E)因为Dijkstra对加权有向图里面的负环路不能正常工作。但是Bellman-Ford可以正常工作。下面介绍Bellman-Ford的工作流程procedure BellmanFord(list vertices, list edges, vertex source) // This implementation takes in a graph, represented as lists of vertices and edges, // a... 阅读全文
posted @ 2013-09-23 11:51 独立寒风 阅读(355) 评论(0) 推荐(0) 编辑