07 2020 档案
摘要:Dockerfile 介绍 Dockerfile是用来自定义构建镜像的文件,格式: FROM nginx RUN echo '这是一个本地构建的nginx镜像' > /usr/share/nginx/html/index.html docker 在每一行上新建一层,为了避免过多的层,用 && 把一些
阅读全文
摘要:容器 docker run ubuntu:18.04 echo hello docker 表示用18.04的ubuntu镜像新建一个容器,用这个容器来执行echo命令 docker run -i -t ubuntu [bash] 表示一个运行一个最新的ubuntu容器,并且进入到这个容器的bash中
阅读全文
摘要:self-attetion 1. 输入 X=EmbeddingLookup(X)+PositionalEncodingX.shape==(batch_size,seq_len,embedding_dim) 2. 计算Q,K,V \[ Q = Linear(X
阅读全文
摘要:encoding Sinusoidal Position Encoding \[ \begin{aligned} P E_{(p o s, 2 i)} &=\sin \left(\frac{p o s}{10000^{\frac{2 i}{d_{\text {model}}}}}\right) \\
阅读全文
摘要:工作流程 dropout用于解决过拟合,通过在每个batch中删除某些节点(cell)进行训练,从而提高模型训练的效果。 通过随机化一个伯努利分布,然后于输入y进行乘法,将对应位置的cell置零。然后y再去做下一层的前向传播。 \[ \begin{aligned} r_{j}^{(l)} & \si
阅读全文
摘要:指数加权平均 (exponentially weighted averges) 先说一下指数加权平均, 公式如下: vt=βvt−1+(1−β)θt θt 是第t天的观测值 vt 是用来替代θt
阅读全文
摘要:RDF(Resource Description Framework 资源描述框架) 知识总是以三元组形式出现: (subject, predicate, object) 即 (主,谓,宾) 资源和属性用URI来定义(http://demo.com/KG) 属性值可以一个值,或者一个资源(URI)
阅读全文
摘要:编辑距离(Minimum Edit Distance,MED),也叫 Levenshtein Distance。他的含义是计算字符串a转换为字符串b的最少单字符编辑次数。编辑操作有:插入、删除、替换(都是对a进行的变换)。用lev(i, j) 表示 a的前i个单词和 b的前j个单词的最短编辑距离(即
阅读全文
摘要:WordCloud的参数: font_path:可用于指定字体路径 width:词云的宽度,默认为 400; height:词云的⾼度,默认为 200; mask:蒙版,可⽤于定制词云的形状; min_font_size:最⼩字号,默认为 4; max_font_size:最⼤字号,默认为词云的⾼度
阅读全文
摘要:数据处理很多需要用到pandas,有两个基本类型:Series表示一维数据,DataFrame表示多维。以下是一些常用方法的整理: pandas.Series 创建 Series pandas.Series( data, index, dtype, copy) name value data 数据采
阅读全文
摘要:PCA可以将数据从原来的向量空间映射到新的空间中。由于每次选择的都是方差最大的方向,所以往往经过前几个维度的划分后,之后的数据排列都非常紧密了, 我们可以舍弃这些维度从而实现降维 原理 内积 两个向量的乘积满足:ab=|a|⋅|b|⋅cos(θ).如果$|b|
阅读全文
摘要:支持向量机可以分为三类: 线性可分的情况 ==> 硬间隔最大化 ==> 硬间隔SVM 近似线性可分的情况 ==> 软间隔最大化 ==> 线性支持向量机 线性不可分的情况 ==> 核技巧/软间隔最大化 ==> 非线性SVM 硬间隔向量机(hard margin svm) 任务:寻找一条与所有支持向量距
阅读全文
摘要:多项式回归就是数据的分布不满足线性关系,而是二次曲线或者更高维度的曲线。此时只能使用多项式回归来拟合曲线。比如如下数据,使用线性函数来拟合就明显不合适了。 接下来要做的就是升维,上面的真实函数是:y=0.5x2+2x+5。而样本数据的形式是(x, y),以这种方式只能训练出$y =
阅读全文
摘要:出现过拟合时,使用正则化可以将模型的拟合程度降低一点点,使曲线变得缓和。 L1正则化(LASSO) 正则项是所有参数的绝对值的和。正则化不包含theta0,因为他只是偏置,而不影响曲线的摆动幅度。 \[ J(\theta)=\operatorname{MSE}(y, \hat{y})+\alpha
阅读全文
摘要:常用的梯度下降法分为: 批量梯度下降法(Batch Gradient Descent) 随机梯度下降法(Stochastic Gradient Descent) 小批量梯度下降法(Mini-Batch Gradient Descent) 简单的算法示例 数据 x = np.random.unifor
阅读全文
摘要:计算 对于线性回归,梯度下降法的目标就是找到一个足够好的向量θ,使代价函数J(θ)=∑(ˆ−y)2\(取得最小值。线性回归的代价函数是关于\)θ的多元函数。如下: \[ J(\theta) = \sum_{i=1}^{m}(\hat{y}
阅读全文
摘要:线性回归 对于每一个样本数据x=(x1,x2,...,x),希望拟合出一个模型 f(x)。当有新的数据输入时,可以给出误差最小的估计值。假设函数如下: \[ y = f(x)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+...+\theta
阅读全文
摘要:信息增益 香农熵: 指混乱程度,越混乱,值越大 信息增益(information gain): 在划分数据集前后信息发生的变化称为信息增益(香农熵的差) 基尼不纯度也可度量集合的无序程度 香农熵的计算公式如下: \[ H=-\sum_{i=1}^{n}p(x_{i})log_{2}p(x_{i})
阅读全文
摘要:x.ravel() 和 x.flatten() : 将多为数组降维到1维.ravel()返回元素的引用(对象不一样,但是元素是引用),flatten()返回新的元素。 np.meshgrid(x, y) : 返回两个矩阵(X,Y),由这两个矩阵可以将xy定义的空间中的所有点描述出来。所有的点就是网格
阅读全文
摘要:常用函数 a.max(axis=0) a.max(axis=1) a.argmax(axis=1) : 每列的最大值(在行方向找最大值)、每行的最大值(在列方向找对大致)、最大值的坐标 sum()求和、mean()平均值、var() 方差、std() 标准差 : 用法与max类似 numpy.ran
阅读全文
摘要:贝叶斯定理 w是由待测数据的所有属性组成的向量。p(c|x)表示,在数据为x时,属于c类的概率。 p(c|w)=p(w|c)p(c)p(w) 如果数据的目标变量最后有两个结果,则需要分别计算p(c1|x)和p(c2|x)取最大的值为分类的结果 \[ p(c_{1}|w)
阅读全文
摘要:基本操作 git init : 初始化 git add file : 添加 git commit -m "" : 提交 git status 查看哪些被修改,是否被提交 git diff filename : 查看修改了什么内容 readme.txt Git is a version control
阅读全文
摘要:修改 Centos7为字符界面 Centos7取消了之前的 inittab文件的作用,改用命令实现, systemctl get-default : 获得默认启动方式 systemctl set-default multi-user.target : 设置字符界面启动方式(level3) syste
阅读全文