2014 年 4月 24 日随笔档案 - Gavinblog

摘要：算法思想:根据现有数据对分类边界建立回归公式，以此分类。训练分类器的做法就是寻找最佳拟合参数，使用最优化算法。特点：大部分时间用于训练（确定参数），在确定参数以后分类将会很快基于Logistic回归和Sigmoid函数分类：优点：计算代价不高，易于理解和实现。 ... 阅读全文

posted @ 2014-04-24 20:48 Gavinblog 阅读(157) 评论(0) 推荐(0) 编辑

摘要：基于概率论的分类方法分类器有时会产生错误结果，于是这时可要求分类器给出一个最优类别猜测结果，同时给出这个猜测的概率估计值优点：数据较少仍然有效，可处理多类别问题缺点: 对输入数据准备方式敏感适用：标称型数据核心思想：选择具有最高概率分布的决策（条件概率）： P（A|B... 阅读全文

posted @ 2014-04-24 20:32 Gavinblog 阅读(134) 评论(0) 推荐(0) 编辑

摘要：决策树也是最经常适用的数据挖掘算法决策树可以适用不熟悉的数据集合，并从中提取一系列规则，机器学习算法最终将使用这些规则（ps：专家系统中常用决策树）优点：计算复杂度不高，输出易于理解，中间值缺失不敏感，可处理不相关特征数据缺点：可能产生过度匹配适用：数值型，标称型原理：找... 阅读全文

posted @ 2014-04-24 20:18 Gavinblog 阅读(121) 评论(0) 推荐(0) 编辑

摘要：采用测量不同特征之间距离的方法进行分类优点：精度高，对异常不敏感，无数据输入假定缺点：计算复杂度高，空间复杂度高适用：数值型，标称型原理：存在一个样本数据集，其中每一个数据都存在标签（分类）即训练集中每个数据与所属分类对应关系已知。输入无标签（分类标签）数据，将新数... 阅读全文

posted @ 2014-04-24 19:59 Gavinblog 阅读(108) 评论(0) 推荐(0) 编辑

Gavinblog