摘要: 1-3月 1. 机器学习理论与实践 1月 1)classfication (K近邻,决策树,支持向量机,朴素贝叶斯,逻辑回归,adaboost) NLP number K近邻 KNeighborsClassifier -> K-D Tree, Ball Treeic LogistRegression 阅读全文
posted @ 2018-12-23 16:33 学海无涯苦作舟_书山有路勤为径 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 正则化方法:防止过拟合,提高泛化能力 避免过拟合的方法有很多:Early stopping、数据集扩增(Data augmentation)、正则化(Regularization)包括L1、L2(L2 regularization也叫weight decay),dropout。 L2 regular 阅读全文
posted @ 2018-12-23 15:25 学海无涯苦作舟_书山有路勤为径 阅读(142) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/willnote/p/6801496.html 总结得不错 AdaBoost是最著名的Boosting族算法。开始时,所有样本的权重相同,训练得到第一个基分类器。从第二轮开始,每轮开始前都先根据上一轮基分类器的分类效果调整每个样本的权重,上一轮分错的样本 阅读全文
posted @ 2018-12-22 22:10 学海无涯苦作舟_书山有路勤为径 阅读(722) 评论(0) 推荐(0) 编辑
摘要: 机器学习分类(1)监督学习 数据集是有标签的,就是说对于给出的样本我们是知道答案的,我们大部分学到的模型都是属于这一类的,包括线性分类器、支持向量机等等; (2)无监督学习 跟监督学习相反,数据集是完全没有标签的,主要的依据是相似的样本在数据空间中一般距离是相近的,这样就能通过距离的计算把样本分类, 阅读全文
posted @ 2018-12-21 20:50 学海无涯苦作舟_书山有路勤为径 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 12. Capturing and Using Process Metrics Two process metrics:• Velocity (features per week) (每周功能数)• Cycle time (weeks per feature) 周期时间(每个功能的开发时间) 1. 阅读全文
posted @ 2018-12-20 13:14 学海无涯苦作舟_书山有路勤为径 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 法一:Bag-of-words 词袋模型 文本特征提取有两个非常重要的模型: 词集模型:单词构成的集合,集合中每个元素都只有一个,也即词集中的每个单词都只有一个 词袋模型:如果一个单词在文档中出现不止一次,并统计其出现的次数(频数) 两者本质上的区别,词袋是在词集的基础上增加了频率的纬度,词集只关注 阅读全文
posted @ 2018-12-19 14:41 学海无涯苦作舟_书山有路勤为径 阅读(1603) 评论(0) 推荐(0) 编辑
摘要: 特征归一化主要有两种方法: 1、线性函数归一化(Min-Max scaling) 线性函数将原始数据线性化的方法转换到[0 1]的范围,归一化公式如下: 线性函数将原始数据线性化的方法转换到[0 1]的范围,归一化公式如下: 该方法实现对原始数据的等比例缩放,其中Xnorm为归一化后的数据,X为原始 阅读全文
posted @ 2018-12-18 23:09 学海无涯苦作舟_书山有路勤为径 阅读(1191) 评论(0) 推荐(0) 编辑