机器学习基本概念

什么是独立同分布

以下摘抄自知乎:忘记了哪个博主了,如果看到告诉我一下,我拿这个博客当笔记,一般摘抄到本子上然后整理到博客。

  1. 系统观测数据
    我们的研究都是以构建魔心高位目的,模型是描述事物的结构,或运行机制所用的文字,图形等。我们会在系统某些位置添加传感器然后观测获取数据。观测数据是对系统的一种间接而粗略的描述可以支持我们在这个基础上对系统内部发生的事进行观测。
  2. 什么是同分布
    我们建模工作实际上是给予观测研究对象结构,由于我们的观测能力,计算能力有限,无法获取全部的样本,因此获取观测数据集有限,是对总体的一个抽样。我们希望尽可能和总体相似么也就是服从相同的分布。记一个系统为\(\theta\),我们观测亮(x,y)服从一个概率分布P(y|\(\theta\),x),其中x为输入,y为输出,一般来说我们会假设(猜想)一个系统结构。由此我们可以给出P(y|\(\theta\),x)计算方式,给予抽样数据得到估计模型参数,得到\(\theta ^{'}\),进而得到一个用于描述系统的概率模型P(y|\theta ^{'},x),如果抽样数据不服从同分布得到的模型就会有很大的偏差
  3. 什么是独立性
    假设我们先后观测到2个值,\(x_t\)\(x_{t+k}\)如果这两个值存在一定的关联如\(x_{t+k}=f(x_t)\),我们说二者不独立,那么\(x_{t+k}\)概率分布为\(P(y_{t+k}|\theta,x_{t+k},x_t)\)\(\x_t\)的概率分布为\(P(y_{t}|\theta,x_{t+k},x_t)\)所以我们一般会这样假设,每一个样本生成出现都相互间无影响即\(x_t\) \(x_{t+k}\)都服从\(P(y_{t}|\theta^{'},x_t)\)
  4. 如何实现独立同分布
    1.随机抽样
    2. 分层抽样
    3. 方便抽样
    4. 系统抽样

概率模型,非概率模型

概率模型的形式\(P(y|x)\)非概率模型\(y=f(x)\)
在监督学习中,概率模型是生成模型,非概率模型是判别模型

  1. 生成模型是要学习数据的分布,然后得到模型,模型学习到的是概率的分布,由分布去预测
  2. 判别模型,利用经典得到误差最小,它学习到的是样本之间的边界
    生成模型在数据量较少的情况下会得到较好的模型,因为它学习的是数据的分布,而判别模型需要不断的移动样本之间的边界,如果数据量太少那么就会及其不准确,举一个知乎上的例子:
    判别模型相当于我们题海战术,做了大量的题目,知道了如何去判别,而生成模型则理解了题目的本质,所以判别模型当遇到没有遇到过的类似的样本的时候就会表现很差,因为在它的经验中没有见过类似的东西,而生成模型则靠自己的推理,推理出了这个样本属于哪一个类,所以泛化能力较好。但是生成模型如果理解错误那么即使样本再多也没用,立即好了,样本少也可以进行推理。例如地震数据较少所以适合用生成模型来做

参数模型,非参数模型

参数模型的的参数维度固定,可以用有限维度的参数来刻画这个模型,而非参数模型随着数据量的增大而不断的增大。

离散型随机变量的概率函数,分布函数;连续型随机变量的概率密度函数,分布函数

https://www.jianshu.com/p/b570b1ba92bb

posted @ 2021-05-20 21:08  LiangLiangAA  阅读(101)  评论(0编辑  收藏  举报
theme: { name: 'geek', avatar: '', headerBackground: '' // ... },