摘要:
1. 线性SVM 假设有分布在Rd空间中的数据,我们希望能够在该空间上找出一个超平面(Hyper-pan),将这一数据分成两类。属于这一类的数据均在超平面的同侧,而属于另一类的数据均在超平面的另一侧。如下图。 比较上图,我们可以发现左图所找出的超平面(虚线),其两平行且与两类数据相切... 阅读全文
2009年3月13日
2009年3月6日
摘要:
1. Pearson积差相关。 积差相关也称积矩相关,是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法,因而又称为皮尔逊相关。其计算公式为 若|r|越接近于0,则表明x与y之间呈直线关系的密切程度较低;若|r|越接近于1,则表明x与y之间呈直线关系的密切程度越高。 积差相关适... 阅读全文
2009年2月20日
摘要:
对一个数据集的变量进行分析,至少需要变量名,对吧。如果变量少,自已逐个输入也没问题,所谓忍一忍就和谐了。如果变量多呢,就无法忍受了--一个个地敲进去,不但麻烦,且易出错。解决之道有三种。 其一是读取表的dictionary.columns.Dictionary表里保存着库名及其成员的名字。以sas... 阅读全文
2009年2月14日
摘要:
分类模型尝试将各个实例(instance)划归到某个特定的类,而分类模型的结果一般是实数值,如逻辑回归,其结果是从0到1的实数值。这里就涉及到如何确定阈值(threshold value),使得模型结果大于这个值,划为一类,小于这个值,划归为另一类。 考虑一个二分问题,即将实例分成正类(posi... 阅读全文
2009年2月11日
摘要:
本文根据Broken Y Axis(http://www.peltiertech.com/Excel/Charts/BrokenYAxis.html)修改而成。 在作柱形图或条形图时,数据中若有特大值,作出的图表会因为数据分布差距太大,导致比例不协调,取值小的数据被淹没了。如下图。 ... 阅读全文
2009年1月20日
摘要:
〈集体智慧编程〉(即 Programming Collective Intelligence: Building Smart Web 2.0 Applications )还没读完,Collective Intelligence in Action又来了。事实上,这本书目前在日本的书泉等书店也是作为计... 阅读全文
2008年12月26日
摘要:
设有一个顾客表,存有如下数据: 顧客NO 性別 婚姻 100000004 女性 不明 100000006 女性 ... 阅读全文
2008年12月24日
摘要:
能用office07发布简直是太好了,这下子省了很多事。 1、多元线性回归模型 假定被解释变量与多个解释变量之间具有线性关系,是解释变量的多元线性函数,称为多元线性回归模型。即 (1.1) 其中为被解释变量,为个解释变量,为个未知参数,为随机误差项。 被解释变量的期望值与解释变量的线性... 阅读全文
2008年11月4日
摘要:
逻辑回归见前述随笔。缩进全乱了。 Code Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->1pi_fun0]) 85n0] 129} 13... 阅读全文
摘要:
逻辑回归见前述随笔 Code Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->1#计算pi 2pi_fun0]) 62n0] 106} 10... 阅读全文