摘要:
机器学习分类: 监督学习: 回归:预测的变量是连续的 分类:预测的变量是离散的 无监督学习: 聚类 半监督学习: 人工标记数据太贵 无监督有时不靠谱 机器学习常见问题 欠拟合:模型过于简单,参数不够 过拟合:模型太复杂。参数过多,特征数目过多。 三个集合: 训练集:生成模型 测试集:测试模型 开发集 阅读全文
摘要:
对于有序表,在顺序查找中,如果第一个数据项不匹配查找项的话,那最多患有n-1个待比对的数据项。 那么,有没有方法利用有序表的特性,迅速缩小待比对数据项的范围?二分查找 二分查找: 从列表中间开始比对:如果列表中间的祥匹配查找项,则查找结束如果不匹配,那么就有两种情况: 1.列表中间项比查找项大,那么 阅读全文
摘要:
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。 线性回归利用线性回归方程的最小平方函数对一个或多个自变量与因变量之间的关系进行建模,这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量的情况叫做多 阅读全文
摘要:
KNN算法是解决分类问题的最简单的算法。同时也是最常用的算法。KNN算法也可以称作k近邻算法,是指K个最近的数据集,属于监督学习算法。 开发流程: 1.加载数据,加载成特征矩阵X与目标向量Y。 2.给定一个新的数据,算出新数据和所有数据的距离,找到距离最近的前K个数据,K的取值范围一般是3-15个。 阅读全文