关于机器学习的思考
机器学习可分为四大类
1. 监督学习 机器训练数据拥有标记或者答案。
2. 非监督学习 机器训练数据没有任何标记或者答案
3. 半监督学习 一部分的数据有标记或者答案,另一部分数据没有,各种原因产生的标记缺失
4. 增强学习 根据周围环境的情况,采取行动,根据采取行动的结果,学习行动方式
机器学习中的回归和分类问题
1.回归问题的应用场景
回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析。一个比较常见的回归算法是线性回归算法(LR)。另外,回归分析用在神经网络上,其最上层是不需要加上softmax函数的,而是直接对前一层累加即可。回归是对真实值的一种逼近预测。
2.分类问题的应用场景
分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上,分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。最常见的分类方法是逻辑回归,或者叫逻辑分类。
如何选择机器学习算法?
【KNN,线性回归,多项式回归,逻辑回归,模型正则化,PCA,SVM,决策树,随机森林,集成学习,模型选择,模型调试】
1. 奥卡姆的剃刀 简单的就是好的
2. 没有免费午餐定理 1)可以严格的数学推导出任意两个算法,他们的期望性能是相同的。 2)脱离具体问题,讨论哪个算法好是没有意义的。 3)不同算法对比试验是有必要的。