摘要:
MMD讲解 描述一个随机变量 去描述一个随机变量,最直接的方法就是给出它的概率分布函数\(f(x)\)。一些简单的分布可以这么干,比如正态分布给出均值和方差就可以确定,但是对于一些复杂的、高维的随机变量,我们无法给出它们的分布函数。 这时候我们可以用随机变量的矩来描述一个随机变量,比如一阶中心矩是均 阅读全文
摘要:
再生希尔伯特空间与核函数讲解 空间 空间的概念就是 空间 = 集合 + 结构 线性空间/向量空间(Linear Space/Vector Space) 线性空间就是 线性空间 = 集合 + 线性结构 ,而其中的线性结构就是 线性结构 = 加法 + 数乘 简单说线性空间就是一系列向量的集合并且只满足加 阅读全文
摘要:
流形学习 数据降维问题 在很多应用中,数据的维数会很高。以图像数据为例,我们要识别32x32的手写数字图像,如果将像素按行或者列拼接起来形成向量,这个向量的维数是1024。高维的数据不仅给机器学习算法带来挑战,而且导致计算量大,此外还会面临维数灾难的问题(这一问题可以直观的理解成特征向量维数越高,机 阅读全文
摘要:
聚类 1.聚类 定义 聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。 聚类和分类的区别 聚类(Cluste 阅读全文
摘要:
经验风险最小化与结构风险最小化 经验风险最小化 经验风险最小化的策略认为,经验风险最小的模型是最优的模型: \[ \min_{f\in F}\frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i))\tag7 \] 当样本容量足够大时,经验风险最小化能保证有很好的学习效果。比如,极大似 阅读全文
摘要:
范数与距离 距离的概念 给定一个集合$V$,在$V$上定义一种新的运算:距离:$V \times V \rightarrow R,\forall x,y \in V,$在$R$中都有唯一的元素$\delta$与之对应,称为$x,y$之间的距离。 满足的性质: $d(x,y)\geqslant0,\f 阅读全文
摘要:
图卷积网络 @ 图卷积网络的概述 图神经网络的核心工作是对空间域(Spatial Domain)中节点的Embedding进行卷积操作(即聚合邻居Embedding信息),然而图数据和图像数据的差别在于节点邻居个数、次序都是不定的,因此传统用于图像上的CNN模型中的卷积操作(Convolution 阅读全文
摘要:
词嵌入模型 词汇表征(Word Representation) 使用one-hot表示的缺点 1.如果要表示的词语个数比较多的话,one—hot会很占空间。 2.如"I want a glass of orange ()"与"I want a glass of apple ()",填入的词语可以是j 阅读全文
摘要:
RNN————循环神经网络(Recurrent Neural Network) 在零时刻通常使用零向量来初始化$a^{<0>}$ Teddy Roosevelt was a great President. Teddy bears are on sale! 如果只给定前三个单词,是不可能确切地知道T 阅读全文