简介

探讨模型优化

任务二分类

问题1: 用什么算法?
a. 逻辑回归
b. KNN
c. 决策树
d. 神经网络

问题2: 具体算法的核心结构或参数如何选择?

逻辑回归边界函数用什么:线性,多项式?

KNN的核心参数n_neighbors取多少合适。

问题3: 模型表现不佳,怎么办??

训练数据准确率太低

测试数据准确率下降明显

召回率、特异度、精确率低

数据的重要性

数据质量决定模型表现的上限

Always Check:

  1. 数据属性的意义,是否为无关数据
  2. 不同属性数据的数量级差异性如何
  3. 是否有异常数据
  4. 采集数据的方法是否合理, 采集到的数据是否具有代表性
  5. 对于标签结果, 要却表标签判定规则的一致性(统一标准)

Always try:

  1. 删除不必要的属性
  2. 数据预处理:归一化、标准化
  3. 确定是否保留或过滤掉异常数据
  4. 尝试不同的模型,对比模型表现

Benefits:

  1. 减少过拟合,节约运算时间
  2. 平衡数据影响,加快训练收敛
  3. 提高鲁棒性
  4. 帮助确定更合适的模型

选择KNN模型,尝试不同n_neighbors值对结果的影响
n_neighbors值越小,模型复杂度越高

posted on 2022-04-25 11:46  HDU李少帅  阅读(104)  评论(0编辑  收藏  举报