2018 年 11月随笔档案 - 张叫兽的技术研究院

11 2018 档案

windows下安装python-Levenshtein

摘要：即使安装上了c++ 14.0依然报错；于是放弃安装c++，所谓需要c++只是为了编译，可以下载预编译版本： https://www.lfd.uci.edu/~gohlke/pythonlibs/ 这个网站上面全是已经预编译好的python包（whl文件），可以直接进行安装，比如对于python-le 阅读全文

posted @ 2018-11-17 21:02 张叫兽的技术研究院阅读(685) 评论(0) 推荐(0) 编辑

摘要：首先要明白主成分并不是指原始的学习数据；其实所有的模型经过fit（X）之后获取的是模型；不要设想学习之后，可以通过模型来获得学习数据，这是没有意义的。其次要明白成分（components）的概念，是指数据投影（projection）到低维的向量，其实在空间中一个数据模型是可以有多个投影的，但是每个投影的变化程度是不一样的，这个变化程度用下面的公式来计算，sigma是协方差矩阵的意思，数据变化的主... 阅读全文

posted @ 2018-11-11 21:45 张叫兽的技术研究院阅读(163) 评论(0) 推荐(0) 编辑

期望，方差，均值以及均方差

摘要：一组数求期望（均值），不是对每个数求均值，而是第一轮是将元素以及重复次数整理出来，二轮才是将求元素的均值：如上，可以看到mean的值和arr.mean是一致的。重复的元素其实只是会计算一次。概率中的讲的元素也是特征元素（重复的元素只算一个特征元素）；这是按照概率定义那种方式来计算（元素*概率再求阅读全文

posted @ 2018-11-11 21:29 张叫兽的技术研究院阅读(5305) 评论(0) 推荐(0) 编辑

PCA原理解释（二）

摘要：PCA在做数据处理，一般会有一个数据预处理，其中一个目标就是将取数据特征向相关性。为什么要去特征的相关性？因为数据如果有相关性，在学习的时候是冗余的，徒增学习成本；所以对于数据处理（也称之为白化，英文有的时候称之为sphering），白化的目的：1.实现特征之间的相关性较低；2.所有的特征具有相同的方差。怎么去特征相关性，就是让他们的协方差为0，协方差，顾名思义，就是两组变... 阅读全文

posted @ 2018-11-11 21:19 张叫兽的技术研究院阅读(616) 评论(0) 推荐(0) 编辑

PCA原理解释

摘要：上图讲述的两组数据，可以看到左图的数据离散度比较大，相关性比较弱，右图数据的相关性比较强；我们在使用PCA的时候，就是要将相关性强的数据进行降维，以减少处理的数据量。那么怎么描述数据的相关性呢？使用期望，协方差以及相关系数：下面分别是左图和右图的数字特征：其实其关键性做得是R，R说明了点间的相关性，但是想要知道R你必须要知道Sigma(X)，想要知道Sig... 阅读全文

posted @ 2018-11-11 21:17 张叫兽的技术研究院阅读(1507) 评论(0) 推荐(0) 编辑

关于范数

摘要：python里面是numpy.linalg.norm(X, ord=...., axis=...) norm的涵义是距离；具体的数学含义就是把元素进行某种运算的结果；距离有几种计算方式： L1：数学含义就是x的绝对值之和，很多时候用于降维；又称之为曼哈顿距离；如果X是一维数组，求得值是数组中数据累加。 array=np.array([1,2,2]) print(np.linalg.nor... 阅读全文

posted @ 2018-11-03 21:21 张叫兽的技术研究院阅读(260) 评论(0) 推荐(0) 编辑

下士闻道

11 2018 档案

windows下安装python-Levenshtein

主成分分析乱谈

期望，方差，均值以及均方差

PCA原理解释（二）

PCA原理解释

关于范数

导航

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论