简介
探讨模型优化
任务二分类
问题1: 用什么算法?
a. 逻辑回归
b. KNN
c. 决策树
d. 神经网络
问题2: 具体算法的核心结构或参数如何选择?
逻辑回归边界函数用什么:线性,多项式?
KNN的核心参数n_neighbors取多少合适。
问题3: 模型表现不佳,怎么办??
训练数据准确率太低
测试数据准确率下降明显
召回率、特异度、精确率低
数据的重要性
数据质量决定模型表现的上限
Always Check:
- 数据属性的意义,是否为无关数据
- 不同属性数据的数量级差异性如何
- 是否有异常数据
- 采集数据的方法是否合理, 采集到的数据是否具有代表性
- 对于标签结果, 要却表标签判定规则的一致性(统一标准)
Always try:
- 删除不必要的属性
- 数据预处理:归一化、标准化
- 确定是否保留或过滤掉异常数据
- 尝试不同的模型,对比模型表现
Benefits:
- 减少过拟合,节约运算时间
- 平衡数据影响,加快训练收敛
- 提高鲁棒性
- 帮助确定更合适的模型
选择KNN模型,尝试不同n_neighbors值对结果的影响
n_neighbors值越小,模型复杂度越高
---------------------------我的天空里没有太阳,总是黑夜,但并不暗,因为有东西代替了太阳。虽然没有太阳那么明亮,但对我来说已经足够。凭借着这份光,我便能把黑夜当成白天。我从来就没有太阳,所以不怕失去。
--------《白夜行》