摘要:
在对Series对象和DataFrame对象进行索引的时候要明确这么一个概念:是使用下标进行索引,还是使用关键字进行索引。比如list进行索引的时候使用的是下标,而dict索引的时候使用的是关键字。 使用下标索引的时候下标总是从0开始的,而且索引值总是数字。而使用关键字进行索引,关键字是key里面的 阅读全文
摘要:
我们以$Y = \{ y_1, y_2,...,y_n \}$ 表示真实的数据,以$\hat Y = \{ \hat{y}_1, \hat{y}_2,...,\hat{y}_n\}$表示预测出来的数据 1:均方误差 (mean square error)MSE $MSE = \frac{1}{n} 阅读全文
摘要:
偏度(skewness)和峰度(kurtosis): 偏度能够反应分布的对称情况,右偏(也叫正偏),在图像上表现为数据右边脱了一个长长的尾巴,这时大多数值分布在左侧,有一小部分值分布在右侧。 峰度反应的是图像的尖锐程度:峰度越大,表现在图像上面是中心点越尖锐。在相同方差的情况下,中间一大部分的值方差 阅读全文
摘要:
在进行特征选择的时候我们要衡量特征和我们的目标之间的相似性,有很多的方法可以衡量,下面介绍一些使用filter特征选择方法的时候能够使用的方法,更多的特征选择方法可以参考我的另一个博客特征选择。 filter特征选择方法是:特征选择的过程和模型的训练过程没有直接关系,使用特征本身的信息来进行特征选择 阅读全文
摘要:
理论基础 knn是k近邻算法(k-nearest neighbor),可以用在分类,回归当中。这里讨论一下分类问题。 knn是一种基于实例的学习,在训练的时候只是把数据加载进去,预测的时候基于已经加载的数据预测出输入实例的标签。预测的策略是:采用距离这个实例最近的k个数据的标签。 所以这里涉及到一些 阅读全文
摘要:
概率条件下的期望风险最小化 贝叶斯分类器是从统计学和概率论的角度来研究机器学习的,我们假设各种分布概率是已知的。 我们以 $X$表示样本空间,$Y$表示类标记空间。$Y=\{ c_1,c_2,…,c_N\}$。 这里的$X$已经不仅仅是我们观察到的数据样本的集合了,而是所有可能的数据的集合。 以$\ 阅读全文
摘要:
基本概念 线性模型是用属性的线性组合来进行预测的函数: 对于一个n维的数据$\mathbf{x}=\{x_1,x_2,…,x_n\}$,要学的一组权重$w_1,w_2,…,w_n;b$,使得预测结果为: $f(x) = w_1x_1 + w_2x_2+…+w_nx_n +d$ 向量的形式是这样的$f 阅读全文
摘要:
差分隐私的由来 想要在一个统计数据库里面保护用户的隐私,那么理想的隐私定义是这样的:访问一个统计数据库而不能够泄露在这个数据库中关于个人的信息。也就是说统计数据库应该提供一个统计值,但是对于个人的信息不应该被查询到。 但是,这个理想的定义是不可行的,它并没有考虑到辅助信息。比如这么一个例子:一个关于某个地区女性的身高的数据库。可以从数据库当中查询到平均值,另外你根据辅助信息知道Alice的身高... 阅读全文
摘要:
Laplace分布的概率密度函数的形式是这样的: $p(x) = \frac{1}{2 \lambda} e^{-\frac{\vert x –\mu \vert}{\lambda}}$ 一般$\mu$的取值为0,所以形式如下: $p(x) = \frac{1}{2 \lambda} e^{-\fr 阅读全文
摘要:
在集成学习中的 stacking 以及python实现当中提到关于Bagging和随机森林的一点点内容,这里继续再看一下,随机森林的一些特点,以及sklearn中有哪些可以调节的参数。 随机森林的基本思想 随机森林是利用决策树作为基学习器,每个基学习器的样本采用bootstrap(自助法)来获得,自 阅读全文