摘要: 第一本是《Effective C++第三版》[38]。学习语法是一回事,高效地运用这门语言是另一回事。C++是一个遍布陷阱的语言,吸取专家经验尤为重要,既能快速提高眼界,又能避免重蹈覆辙。《C++ Primer》加上这本书包含的C++知识足以应付日常应用程序开发。《深度探索C++对象模型》《深入浅出... 阅读全文
posted @ 2014-03-08 16:05 黎嫣 阅读(219) 评论(0) 推荐(0) 编辑
摘要: C语言是一种古老而又经久不衰的计算机程序设计语言,大约诞生于上个世纪60年代。由于它的设计有很多优点,多年以来深受广大程序设计人员的喜爱,并逐渐淘汰了很多其它程序设计语言。我们平时使用的大多数软件都是用C语言开发的。很多后来出现的一些语言也沿用了很多它的东西。C语言的编程方式是一种称为面向过程的开发方式。也就是说,解决问题的时候,程序员需要思考计算机应该如何一步一步完成这个问题,然后将相应过程转化为代码。当软件变得越来越复杂,代码越来越长的时候,一个人的脑力有限,用面向过程的方法很难开发,往往写着后面的,就忘了前面写了什么了。而且复杂软件往往需要很多人协同开发,更加大了开发难度。一种称为面向对 阅读全文
posted @ 2014-03-08 15:05 黎嫣 阅读(3792) 评论(0) 推荐(0) 编辑
摘要: REF[24]随机森林是一个很好适用于微阵列数据的分类算法:1.即使大多数的预测变量都是噪音,RF仍然具有优秀的性能,因此不需要对基因进行预选择。2.能够应用于变量数远远大于观测数据量的情况3.能用于两类和多于两个分类问题的情况4.返回变量重要性测量5.不会过拟合6.能处理分类和连续预测器的混合7.... 阅读全文
posted @ 2014-03-07 17:45 黎嫣 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 偏最小二乘法是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首提示来的,偏最小二乘法有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。这是多元统计数据分析中的一个飞跃。偏最小二乘法在统计应用中的重要性体现在以下几个方面: 偏最小二乘法是一种多因变量对多自变量的回归建模方法。偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。 偏最小二乘法之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。 主成分回归的主要目的是要提取 阅读全文
posted @ 2014-03-07 16:30 黎嫣 阅读(2617) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/tornadomeet/p/3395593.html朴素贝叶斯的优点: 对小规模的数据表现很好,适合多分类任务,适合增量式训练。 缺点: 对输入数据的表达形式很敏感。决策树的优点: 计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关的特征; 缺点: 容易过拟合(后续出现了随机森林,减小了过拟合现象);Logistic回归优点: 1、实现简单; 2、分类时计算量非常小,速度很快,存储资源低; 缺点: 1、容易欠拟合,一般准确度不太高 2、只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),... 阅读全文
posted @ 2014-02-23 16:45 黎嫣 阅读(3352) 评论(0) 推荐(0) 编辑
摘要: 纠错输出编码法(Error-CorrectingOutputCodes,ECOC)不仅能够将多类分类问题转化为多个两类问题,而且利用纠错输出码本身具有纠错能力的特性,可以提高监督学习算法的预测精度。将多类问题两类化的重要途径是对输出的类别进行编码,即每个类别对应一个长度为n的二进制位串(称为码字),共形成m个码字,这些码字的同一位描述了一个二值函数。学习结束后获得n个二分器,在分类阶段,每个二分器对输入样本产生的输出形成输出向量,然后由决策规则判定输入样本的类别。纠错输出编码法:将机器学习问题看做数据通信问题,并采用纠错输出码对各类别进行编码,因此在分类过程中能够纠正某些二分器的错误输出,从而 阅读全文
posted @ 2014-02-19 17:18 黎嫣 阅读(4827) 评论(2) 推荐(0) 编辑
摘要: 遗传算法(GeneticAlgorithms,GA)是一种全局优化方法,它借用了生物遗传学的观点,通过自然选择、遗传、变异等作用机制,实现种群中个体适应性的提高,体现了自然界中“物竞天择、适者生存”的进化过程。遗传算法是一类借鉴生物界自然选择和自然遗传机制的随机化搜索算法,它模拟自然选择和自然遗传过程中发生的繁殖、交叉和基因突变现象,在每次迭代中都保留一组候选解,并按某种指标从解群中选取较优的个体,利用遗传算子(选择、交叉和变异)对这些个体进行组合,产生新一代的候选种群,并重复此过程,直到满足某种收敛指标为止。基本遗传算法(SimpleGeneticAlgorithms,简称SGA,又称简单遗 阅读全文
posted @ 2014-02-19 16:51 黎嫣 阅读(3137) 评论(0) 推荐(0) 编辑
摘要: 支持向量机(SupportVectorMachine,SVM),集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术。核表示方式将数据映射到高位空间来增加线性学习器的计算能力。训练样本不会独立出现,而总是以成对样本的内积形式出现。通过选择恰当的核函数来代替内积,可以隐式地将训练数据非线性映射到高维空间,而不增加可调参数的个数,当然前提是核函数能够计算对应着两个输入特征向量的内积。需要学习的目标函数的复杂度取决于它的表示方式,学习任务的难度也会随之变化。在理想情况下,应该选择与特定的学习问题匹配的表示。将数据简单映射到另一个空间有时能够很好地简化任务。一般而言,描述数据的 阅读全文
posted @ 2014-02-18 17:07 黎嫣 阅读(731) 评论(0) 推荐(0) 编辑
摘要: 神经网络基本模型:1.前向神经网络:无圈的有向图N=(V,E,W),其中,V为神经元集合,E为连结权值集合,W为每一连结赋予一实值的权重。神经元集V可以被分成无接受域的输入结点集V1,无投射域的输出结点集V0和既有接受域又有投射域的隐结点集VH。一般的前向神经网络包括一个输入层、一个输出层和若干隐单元。隐单元可分层也可以不分层。若分层,则成为多层前向神经网络。网络的输入、输出神经元的激励函数一般取线性函数,而隐单元则为非线性函数。前向神经网络的输入单元从外部环境中接受信号,经处理将输出信号加权后传给其投射域中的神经元,网络中的隐含单元或输出单元从其接受域中接受净输入,然后向它的投射域发送输出信 阅读全文
posted @ 2014-02-18 14:34 黎嫣 阅读(2027) 评论(0) 推荐(0) 编辑
摘要: 学习过程:发现新模式->应用、泛化->约束、修正->固定模式人工智能大师H.A.Simon的观点:“学习”就是系统在不断重复的工作中对本身能力的增强或改进,结果是系统在下一次执行同样任务或类似任务时,比现在做得更好或效率更高。简而言之,“学习”指系统改进其性能的任何过程。机器学习系统:给定某类任务T、与T相关的性能P和经验E,计算机程序从经验E中学习,用学习的结果改善性能P,从而实现自我完善,则称该程序具有学习能力。影响学习系统设计的最重要因素是环境向系统提供的信息,即学习模型中的E机器学习方法分类:1.监督学习:利用有类别标识的训练样本集合和选定的模型来确定分类器的过程。对 阅读全文
posted @ 2014-02-17 16:00 黎嫣 阅读(952) 评论(0) 推荐(0) 编辑