机器学习基础
机器学习分类:
监督学习:
回归:预测的变量是连续的
分类:预测的变量是离散的
无监督学习:
聚类
半监督学习:
人工标记数据太贵
无监督有时不靠谱
机器学习常见问题
欠拟合:模型过于简单,参数不够
过拟合:模型太复杂。参数过多,特征数目过多。
三个集合:
训练集:生成模型
测试集:测试模型
开发集:调节参数
基于机器学习解决问题步骤:
1.数据预处理
2.特征筛选
3.选择适合本问题的学习算法
4.训练模型(基于训练集和开发集)
5.测试模型(基于测试集)
6.开放使用