入门机器学习

《白话大数据与机器学习》读书笔记

1.机器学习与数据挖掘的关系

1.1《白话》的观点:

1.1.1区别

数据挖掘:从数据中找到规律或知识。
机器学习:让机器独立或至半独立地进行复杂或者高要求的工作。

1.1.2联系

对于算法的使用而言,不必区分该算法是属于机器学习领域还是数据挖掘领域。

1.2《西瓜书》的观点:

数据挖掘受数据库、机器学习、统计学影响最大,它是从海量数据中发掘知识。机器学习和统计学的研究为数据挖掘提供数据分析技术。统计学主要是通过机器学习对数据挖掘发挥影响,机器学习支撑数据挖掘。

1.3清华数据挖掘公开课的观点:

数据挖掘 = 机器学习 + 人工智能 + 模式识别 + 统计学

2.度量距离的手段

  1. 欧式距离
  2. 曼哈顿距离
  3. 余弦相似度

3.当数据线性不可分时

  1. SVM的做法:映射到高维(升维)
  2. 神经网络的做法:增加输入的变量、增加网络的层次、增加输出层

4.必备前驱知识

4.1概率论

  1. 古典概型
  2. 条件概率

4.2分布

  1. 高斯分布
  2. 泊松分布
  3. 伯努利分布

4.3信息论

  1. 信息的定义:“信息是被消除的不确定性”
  2. 信息量的表示
I = log_2 M

4.4矩阵

  1. 维度
  2. 矩阵的转置

4.5高等数学

  1. 求偏导数

5.学习资源

5.1在线学习资源

  1. DataQuest
posted @ 2017-02-04 14:52  健康平安快乐  阅读(231)  评论(0编辑  收藏  举报