随笔分类 - 模型评估
摘要:说明: KMeans 聚类中的超参数是 K,需要我们指定。K 值一方面可以结合具体业务来确定,另一方面可以通过肘方法来估计。K 参数的最优解是以成本函数最小化为目标,成本函数为各个类畸变程度之和,每个类的畸变程度等于该类重心与其内部成员位置距离的平方和但是平均畸变程度会随着K的增大先减小后增大,所以
阅读全文
摘要:# 读取数数据, 查看数据结构 df_raw <- read.csv("sms_spam.csv", stringsAsFactors=F) str(df_raw) length(df_raw$type) # 将数据分为特征值矩阵 X 和 类标向量y 两部分,将 y 换为因子 X <- df_raw
阅读全文
摘要:1、混淆矩阵: 预测类标 1 0 合计 真 实 类 标 1 TP FN P 0 FP TN N 合计 P' N' P+N 混淆矩阵的四个术语:真正例 / 真阳性(TP),真负例 / 真阴性(TN),假正例 / 假阳性(FP)、假负例 / 假阴性(FN)。 2、分类器涉及的常见评估度量: 度量 公式
阅读全文
摘要:1、混淆矩阵: 预测类标 1 0 合计 真 实 类 标 1 TP FN P 0 FP TN N 合计 P' N' P+N 混淆矩阵的四个术语:真正例 / 真阳性(TP),真负例 / 真阴性(TN),假正例 / 假阳性(FP)、假负例 / 假阴性(FN)。 2、分类器涉及的常见评估度量: 度量 公式
阅读全文