摘要: 一、 马氏距离 我们熟悉的欧氏距离虽然很有用,但也有明显的缺点。它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。例如,在教育研究中,经常遇到对人的分析和判别,个体的不同属性对于区分个体有着不同的重要性。因此,有时需要采用不同的距离函数。 如果用dij表示第i个样品和第j个样品之间的距离,那么对一切i,j和k,dij应该满足如下四个条件: ①当且仅当i=... 阅读全文
posted @ 2016-03-11 10:58 HUSTLX 阅读(7346) 评论(0) 推荐(0) 编辑
摘要: 1、 直接登陆服务器:ssh 2014210***@thumedia.org -p 6349 创建streaming.py: touch streaming.py,并且如下编辑: #! /usr/bin/python import logging import math import time pg2count={} t=1 while 1: fp=open('/tmp/hw3.l... 阅读全文
posted @ 2016-03-11 10:55 HUSTLX 阅读(2327) 评论(0) 推荐(0) 编辑
摘要: [在此处输入文章标题] 由于MATLAB自带的GUI平台设计的界面不是很美观而且设计过程并不是很方便,我们选择了用c#来做软件界面的实现。我们用MATLAB做信号处理封装成函数,把函数编译成dll格式,然后用c#调用MATLAB的函数即可。在设计过程中遇到两个主要的麻烦,一个是MATLAB和c#数值类型的转化问题,而且c#函数多输出、多输入问题是从来没有遇到过的,另一个问题是实现动... 阅读全文
posted @ 2016-03-11 10:49 HUSTLX 阅读(1199) 评论(0) 推荐(0) 编辑
摘要: 1.数据概述 本报告中采用的数据集来自于UCI经典数据集Adult,最初来源是由1994年Barry Becker的统计数据集,该数据集本来最初的主要任务是根据数据集中的相关属性预测某个人的年收入是大于50K还是小于等于50K。本数据集一共有14个属性用来预测个人的年收入,包括了年龄、工作阶层、教育程度、职业、性别、种族、家庭状况等情况。这14个基本属性中有一项属性为fnlwgt,即... 阅读全文
posted @ 2016-03-11 10:40 HUSTLX 阅读(3759) 评论(0) 推荐(0) 编辑
摘要: 一、 实验原理 在绝大多数非天空的局部区域里,某一些像素总会有至少一个颜色通道有很低的值。换言之,该区域光强度的最小值是个很小的数。 我们给暗通道一个数学定义,对于任意的输入图像J,其暗通道可以用下式表达: 式中Jc表示彩色图像的每个通道 ,Ω(x)表示以像素X为中心的一个窗口。 式(5)的意义用代码表达也很简单,首先求出每个像素RGB分量中的最小值,存... 阅读全文
posted @ 2016-03-11 10:32 HUSTLX 阅读(1073) 评论(0) 推荐(0) 编辑
摘要: 我用10个国家某年的GDP来绘图,数据如下: labels = ['USA', 'China', 'India', 'Japan', 'Germany', 'Russia', 'Brazil', 'UK', 'France', 'Italy'] quants = [15094025.0, 11299967.0, 4457784.0, 4440376.0, 3099080.0, 2383... 阅读全文
posted @ 2016-03-11 10:23 HUSTLX 阅读(8790) 评论(0) 推荐(0) 编辑
摘要: 1、Python简介:Python在Linux、windows、Mac os等操作系统下都有相应的版本,不管在什么操作系统下,它都能够正常工作。除非使用平台相关功能,或特定平台的程序库,否则可以跨平台使用。python有许多优点,如:简单、易学、免费开源、高层语言、可移植性、解释性、面向对象、可扩展性、可嵌入性、丰富的库。2 安装python Windows之所以使用的这么普遍,是因为在win... 阅读全文
posted @ 2016-03-11 10:22 HUSTLX 阅读(313) 评论(0) 推荐(0) 编辑
摘要: S. S. Keerthi等人在Improvements to Platt’s SMO Algorithm for SVM Classifier Design一文中提出了对SMO算法的改进,纵观SMO算法,其核心是怎么选择每轮优化的两个拉格朗日乘子,标准的SMO算法是通过判断乘子是否违反原问题的KKT条件来选择待优化乘子的,由KKT条件: 是否违反它,与这几个因素相关:拉格朗日乘子 、样... 阅读全文
posted @ 2016-03-11 10:17 HUSTLX 阅读(514) 评论(0) 推荐(0) 编辑
摘要: 这种方法假设样本点在光滑的流形上,这一方法的计算数据的低维表达,局部近邻信息被最优的保存。以这种方式,可以得到一个能反映流形的几何结构的解。 步骤一:构建一个图G=(V,E),其中V={vi,i=1,2,3…n}是顶点的集合,E={eij}是连接顶点的vi和vj边,图的每一个节点vi与样本集X中的一个点xi相关。如果xi,xj相距较近,我们就连接vi,vj。也就是说在各自节点插入一个边eij,如果... 阅读全文
posted @ 2016-03-11 10:13 HUSTLX 阅读(1375) 评论(0) 推荐(0) 编辑
摘要: 1.1算法流程 假设有m个samples,每个数据有n维。 1. 计算各个feature的平均值,计μj ;(Xj(i)表示第i个样本的第j维特征的value) μj = Σm Xj(i)/m meanVals = mean(dataMat, axis=0) 2. 将每一个feature scaling:将在不同scale上的feature进行归一化; 3. 将特征进行mean normal... 阅读全文
posted @ 2016-03-11 09:30 HUSTLX 阅读(684) 评论(0) 推荐(0) 编辑
摘要: 剪枝 由于悲观错误剪枝 PEP (Pessimistic Error Pruning)、代价-复杂度剪枝 CCP (Cost-Complexity Pruning)、基于错误剪枝 EBP (Error-Based Pruning)、最小错误剪枝 MEP (Minimum Error Pruning)都是用于分类模型,故我们用降低错误剪枝 REP ( Reduced Error Pruning)方法... 阅读全文
posted @ 2016-03-11 09:23 HUSTLX 阅读(1415) 评论(0) 推荐(0) 编辑