04 2017 档案
摘要:常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。 在二分类问题中,为什么弃用传统的线性回归模型,改用逻辑斯蒂回归? 线性回归用于二分类时,首先想到下面这种形式,p是属于类别的概率:
阅读全文
摘要:联合: 在结构中,每个成员依次存储,而在联合中,所有成员都从偏移地址零开始存储,联合一般被用来节省空间,用法和struct相同。 枚举:把一串名字与一串整型值联系在一起 格式:enum 可选标签 {...} 可选变量定义; 缺省情况下,整型值从零开始,如果对列表中的某个标识符进行了赋值,那么其后的标
阅读全文
摘要:参考: http://scikit-learn.org/stable/modules/preprocessing.html
阅读全文
摘要:methods to avoid overfitting: 参考: https://www.analyticsvidhya.com/blog/2015/02/avoid-over-fitting-regularization/ 1、获取更多数据:解决过拟合最有效的方法 从数据源头获取更多数据 根据当
阅读全文
摘要:The overall parameters have been divided into 3 categories by XGBoost authors: general parameters Select the type of model to run at each iteration. I
阅读全文
摘要:http://blog.csdn.net/my_business/article/details/40537653 http://blog.csdn.net/maverick1990/article/details/22829135
阅读全文
摘要:XGBoost训练: It is not easy to train all the trees at once. Instead, we use an additive strategy: fix what we have learned, and add one new tree at a ti
阅读全文
摘要:Jaccard similarity coefficient(杰卡德相似系数): 两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数 Correlation coefficient(相关系数): 准确率、召回、Fscore: Hinge Loss: $L(y(wx +
阅读全文