摘要:
GBDT 和 XGBoost 决策树 选择最优划分属性; 熵 信息熵是衡量样本集合纯度的常用指标。假设当前样本集合中第$k$类所占的比例为 $p_k$,则 $D$ 的信息熵为: $$ \operatorname{Ent}(D)= \sum_{k=1}^{ | \mathcal{Y |}} p_{k} 阅读全文
摘要:
支持向量机 核心思想是间隔最大化 基本形式 假设划分超平面可以使用下述线性方程来描述: $$ \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b=0 $$ 则样本空间中的任一点到分隔超平面的距离为: $$ r=\frac{\left|\boldsymbol{w} 阅读全文