2020 年 5月 13 日随笔档案 - hi_heisen

2020年5月13日

摘要： Centos配置 1、配置本地Yum源 1. 修改/ect/yum.repos.d/CenOS Base.repo配置文件其他的enabled=0 2. 挂载Everything.iso 3. 测试是否成功 2、配置IP 1. 修改/etc/hostname 2. 修改网络配置文件/etc/sys 阅读全文

posted @ 2020-05-13 16:05 hi_heisen 阅读(101) 评论(0) 推荐(0) 编辑

局域网安装UBUNTU步骤

摘要：局域网安装UBUNTU步骤 1. 修改terminal的字体大小为16，颜色为Tango dark，为输入命令作准备。 2. 修改apt源，为安装软件包及依赖作准备。 sudo apt update 3. 安装vim方便修改文件 4. 安装高版本的gcc&g++和低版本的gcc&g++，为安装NVI 阅读全文

posted @ 2020-05-13 15:59 hi_heisen 阅读(391) 评论(0) 推荐(0) 编辑

vue 使用正则表达式

摘要：正则表达式 element使用正则表达式验证使用方法验证使用validator定义方法使用vue的数据定义验证使用pattern定义规则阅读全文

posted @ 2020-05-13 15:57 hi_heisen 阅读(22935) 评论(0) 推荐(0) 编辑

最大熵模型

摘要：最大熵模型熵的概念熵度量了事物的不确定性，越不确定的事物，它的熵越大，表示如下： $$ H(X)= \sum_{i=1}^np_i\log p_i $$ n代表X的n种不同离散取值，而$p_i$代表了X取值为i的概率。多个变量联合熵表示为 $$ H(X,Y)= \sum_{i=1}^np(x_ 阅读全文

posted @ 2020-05-13 15:55 hi_heisen 阅读(232) 评论(0) 推荐(0) 编辑

主成分分析PCA

摘要： PCA原理 PCA思想 PCA是一种重要的降维方法之一，就是找出数据里最主要的方面，用主要方面代替原数据，并希望损失尽可能小。 PCA推导：基于最小投影距离假设m个n维数据$(x^{(1)},x^{(2)},...,x^{(m)})$都已经进行了中心化，即$\sum\limits_{i=1}^mx 阅读全文

posted @ 2020-05-13 15:53 hi_heisen 阅读(156) 评论(0) 推荐(0) 编辑

逻辑回归、正则化、感知机

摘要：逻辑回归、正则化、感知机正则化为避免过拟合，增强模型的泛化能力，可以使用正则化的方法。 1. Lasso回归 L1正则化 $$ J(\theta)=\frac{1}{2n}(\mathtt X\theta Y)^T(\mathtt X\theta Y)+\alpha\lVert \theta\r 阅读全文

posted @ 2020-05-13 15:51 hi_heisen 阅读(351) 评论(0) 推荐(0) 编辑

线性差别分析LDA

摘要： LDA原理 LDA思想这里的LDA是指Linear Discriminant Analysis，简称LDA，全称线性判别分析。要与自然语言处理领域的LDA（Latent Dirichlet Allocation）隐含狄利克雷分布区分开来。 LDA是一种监督学习降维技术，它的数据集的每个样本是有类别阅读全文

posted @ 2020-05-13 15:50 hi_heisen 阅读(491) 评论(0) 推荐(0) 编辑

梯度提升树GBDT

摘要：梯度提升树GBDT GBDT是Boosting家庭中，除AdaBoost外另一个重要的算法。算法思想同样是让本轮迭代找到的决策树的损失比上轮更小。 GBDT负梯度拟合用损失函数负梯度来拟合本轮损失近似值，进而拟合一个CART回归树。第t轮的第i个样本的损失函数的负梯度表示为： $$ r_{ti}= 阅读全文

posted @ 2020-05-13 15:49 hi_heisen 阅读(188) 评论(0) 推荐(0) 编辑

奇异值分解SVD

摘要：奇异值分解SVD原理特征值和特征向量特征值和特征向量表示： $$ Ax=\lambda x $$ 其中A是一个$n\times n$的实对称矩阵，x是一个n维向量，则我们说$\lambda$是一个特征值，而x是矩阵A的特征值$\lambda$对应的特征向量。有了特征值和特征向量，我们就可以将矩阵阅读全文

posted @ 2020-05-13 15:47 hi_heisen 阅读(180) 评论(0) 推荐(0) 编辑

朴素贝叶斯

摘要：朴素贝叶斯朴素贝叶斯原理朴素贝叶斯：条件分布＋条件独立＋全概率算法原理条件分布 $$ P(Y|X)=\frac{P(X,Y)}{P(X)} $$ 贝叶斯可以概括为：先验概率＋数据＝后验概率。如果X和Y相互独立，那么 $$ P(X,Y)=P(X)P(Y) $$ 条件概率表示为： $$ P(Y 阅读全文

posted @ 2020-05-13 15:46 hi_heisen 阅读(226) 评论(0) 推荐(0) 编辑

决策树

摘要：决策树 ID3算法 1. 信息论基础信息论中，熵度量了事务的不确定性，越不确定的事务，它的熵就越大。表示形式如下： $$ H(X)= \sum_{i=1}^np_i\log_2 p_i $$ 多个变量联合熵表示如下： $$ H(X,Y)= \sum_{i=1}^np(x_i,y_i)\log p( 阅读全文

posted @ 2020-05-13 15:45 hi_heisen 阅读(149) 评论(0) 推荐(0) 编辑

交叉熵与softmax

摘要：交叉熵 $$ H(p,q)= \sum\limits_{x}p(x)\log q(x) $$ 它刻画的是通过概率分布q来表达概率分布p的困难程度。交叉熵作为神经网络的损失函数时，p代表正确答案，q代表预测值，它刻画两个概率分布的距离，即交叉熵越小，两个概率分布越近。或写为 $$ \sum_ip_k 阅读全文

posted @ 2020-05-13 15:44 hi_heisen 阅读(199) 评论(0) 推荐(0) 编辑

集成学习

摘要：集成学习基本思想集成学习主要思想是：通过构建并结合多个机器学习来完成任务，通过一定的策略将各学习器结合。主要有两类：一类是Boosting，另一类是Bagging Boosting：同质学习器，存在信赖关系，往往是串行的，根据误差调节样本权重，代表AdaBoost和Boost tree； Bag 阅读全文

posted @ 2020-05-13 15:42 hi_heisen 阅读(242) 评论(0) 推荐(0) 编辑

SVM算法

摘要： SVM算法间隔的定义在分隔超平面定义为$w^Tx+b=0$时，我们定义点到超平面的距离为$\gamma=\frac{y(x^Tx+b)}{\lVert w\rVert_2}$。目标函数与优化定义了点到超平面的距离后，我们的目标就是让所有的点到分隔超平面的距离之各最小，我们定义优化函数如下：阅读全文

posted @ 2020-05-13 15:40 hi_heisen 阅读(242) 评论(0) 推荐(0) 编辑

蒙特卡罗方法

摘要： MCMC是（Markov Chain Monte Carlo）缩写，中文马尔科夫链蒙特卡罗。蒙特卡罗方法 Monte Carlo思想最早的蒙特卡罗方法是为了求各或积分问题，比如 $$ \theta=\int_a^bf(x)dx $$ 使用蒙特卡罗方法求得积分的近似值。在$[a,b]$区间上随机采阅读全文

posted @ 2020-05-13 15:39 hi_heisen 阅读(311) 评论(0) 推荐(0) 编辑

K近邻--KNN

摘要： K近邻 KNN KNN算法 KNN是选择距离最近的几个样本，做分类或者回归。分类时，选择多数表决法，回归时，一般选择平均值法。 1. KNN三要素 1）K的选择：可通过交叉验证法寻找合适的K 2）距离度量：对于两个n维向量x和y，两者的欧式距离、曼哈顿距离和闵可斯基距离定义如下： $$ D(x,y 阅读全文

posted @ 2020-05-13 15:37 hi_heisen 阅读(131) 评论(0) 推荐(0) 编辑

K-Means聚类

摘要： K Means聚类 K Means算法思想给定样本集，按照样本之间的距离大小，将样本集分为K个簇，让簇内尽量紧密，让簇间尽量大。假设簇划分为$C_1,C_2,...,C_k$，则我们的目标是最小化平方误差E $$ E=\sum_{i=1}^k\sum_{x\in C_i}\lVert x \mu 阅读全文

posted @ 2020-05-13 15:35 hi_heisen 阅读(174) 评论(0) 推荐(0) 编辑

DBSCAN密度聚类

摘要： DBSCAN密度聚类基本原理 DBSCAN是具有噪声的基于密度聚类的方法，可应用于凸样本集，也可应用于非凸样本集。同一类别的样本是紧密相连的。 DBSCAN密度定义假设样本集$D=(x_1,x_2,...,x_m)$，参数$(\epsilon,MinPts)$用来描述邻域的样本分布紧密程度，其中阅读全文

posted @ 2020-05-13 15:23 hi_heisen 阅读(149) 评论(0) 推荐(0) 编辑

Bagging、随机森林

摘要： Bagging原理 Bagging是n个相互无信赖的弱学习器，通过一定的策略，得到一个强学习器。随机采样 Bagging一个主要的特点是随机采样，bagging是有放回的采样。对于一个有m个样本的数据集，每次采集一个样本，被采的概率是$\frac{1}{m}$，不被采的概率是$1 \frac{1 阅读全文

posted @ 2020-05-13 15:22 hi_heisen 阅读(217) 评论(0) 推荐(0) 编辑

支持向量机SVM

摘要： 1 基本概念支持向量机核心在于寻找分隔超平面，写为$\mathtt{w}^T\mathtt{x}+b$，任意一点到超平面的距离为$\frac{|\mathtt{w}^T\mathtt{A}+b|}{||\mathtt{w}||}$。以平台上的直线为例，直线$Ax+By+C=0$，点$(x_0,y 阅读全文

posted @ 2020-05-13 15:21 hi_heisen 阅读(153) 评论(0) 推荐(0) 编辑

hi_heisen

公告