摘要:
[toc] ___ 类别不平衡(class imbalance) 当不同类别的训练样本数目差别很大,则会对学习过程造成困扰。如有998个反例,但正例只有2个。 从线性分类器的角度讨论,用$y=w^Tx+b$对新样本$x$进行分类时,事实上是在用预测出的$y$值与一个阈值进行比较。如通过在$y 0.5 阅读全文
摘要:
[toc] 贝叶斯公式 贝叶斯公式: $$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$$ 在$B$出现的前提下$A$出现的概率,等于$A$和$B$都出现的概率除以$B$出现的概率。 假设事件$A$本身包含多种可能性,集$A=\{A_1,A_2,\cdots,A_n\}$,那么对于集 阅读全文
摘要:
[toc] sklearn.linear_model.LogisticRegression :惩罚项,可为 。 只支持 。 1. 正则化的损失函数不是连续可导的,而 这三种算法需要损失函数的一阶或二阶连续可导。 2. 调参时如果主要是为了解决过拟合,选择 正则化就够了。若选择 正则化还是过拟合,可考 阅读全文
摘要:
[toc] 线性回归 假设存在线性相关关系:$y=a+bx$ 均方误差是回归任务中最常用的性能度量指标。因此,其损失函数为: $$ J(a,b)=\frac{1}{2m}\sum_{i=1}^{m}(y^{'(i)} y^{(i)})^2=\frac{1}{2m}\sum_{i=1}^{m}(a+b 阅读全文