python机器学习算法简介

机器学习目的

  • 描述式分析的目的是了解过去
  • 探索性分析的目的是预知未来

机器学习本质

模式识别:寻找特征和标签(结果)之间的关系

算法本质都是数学函数,机器学习的过程就是给函数找参数(特征)和调整参数值,以让函数曲线尽量拟合数据的过程。

与传统数学、计算机算法有何不同?

  • 确定性算法
    • 追求绝对正确
    • 代价是应用范围窄
      • 数学公式
      • 传统计算机科学算法
  • 概率性算法
    • 不那么精确,却是比没有算法要可靠
    • 好处是应用范围广
      • 机器学习不探究事物的本质,不追求精确模型,只用基本的模型算法,直接以数据驱动预测

机器学习算法分类

  • 监督学习:有标签(预测结果)

    • 分类
      • 对离散型变量预测的监督学习算法,定性输出
      • 邮件过滤,金融欺诈
    • 回归
      • 对数值型连续变量进行预测的监督学习算法,定量输出
      • 房价预测,股票走势等连续变化案例
  • 无监督学习无标签(预测结果)

    • 聚类
      • 数据没有标注,基于数据内部结构寻找样本的自然集群
      • 新闻聚类,文章推荐
    • 降维
      • 数据信息丢失最少的原则下,降低特征维度,方便理解和计算
  • 半监督学习(少部分有标签,大部分没有标签)

  • 强化学习(增强学习)

    • AlphaGo
  • 深度学习

    • 多层神经网络
    • 语音,图像识别

监督学习包含算法:

  • 线性回归
    • 岭回归:目标函数为平方损失函数+L2正则
    • Lasso回归:目标函数为平方损失函数+L1正则
  • 逻辑回归(仅含有一层神经元的单层的神经网络)
  • 神经网络(多层神经网络叫做深度学习)
  • Knn
  • 决策树
  • 朴素贝叶斯
  • 支持向量机(svm)

无监督学习包含算法:

  • 聚类:K-Means
  • 降维:主成分 分析PCA

集成算法:

  • Bagging
    • 随机森林
  • Boosting
    • Adaboost
    • Gradient Boosting
    • 其他实现
      • XGboost
      • GBDT
    • Stacking
posted @ 2019-01-17 20:45  hangover  阅读(329)  评论(0编辑  收藏  举报