摘要:
[TOC] 1、KNN算法 KNN(K nearest neighbor)是一种分类算法,其根据需要预测的点的周围K个点的分类类别来决定当前点的类别。 2、K值选择和距离度量方法 一般来说,K值由用户自己设定,K值的选择会影响最终分类的效果。距离度量方法主要有欧式距离,曼哈顿距离 3、KD树 KD树 阅读全文
摘要:
[TOC] 1、感知机模型 感知机是一个线性分类器,感知机的公式是 $$ f(x) = sign(wx+b) $$ 其中 $$ \operatorname{sign}(x)=\left\{\begin{array}{ll} +1, & x \geqslant 0 \\ 1, & x 关于$wx+b$ 阅读全文
摘要:
[TOC] 0、前言 我们在工作中经常遇到需要将词向量文件读取到内存,但是正常情况下,我们的单词个数都是数十万个,单词的向量都是几百维,所以导致文件比较大,动辄几个G,在读取文件的时候经常会比较慢,有没有什么办法能够加快读取文件的速度呢,接下来,本人将从如下几种方法,进行速度的对比。 1、文件格式 阅读全文
摘要:
[TOC] 1、简介 机器学习的目的是通过对训练数据的训练,能够对未知的数据有很好的应用效果。 1.1 训练误差和测试误差 训练误差是模型对训练集的计算损失,测试误差是模型对测试集的计算损失,听起来好像是废话。举个栗子,一个数据集有100条,其中80条用来做训练集,20条用来做测试集,用模型对这80 阅读全文
摘要:
[TOC] 1、DCNN模型 DCNN是由Nal Kalchbrenner[1]等人于2014年提出的一种算法,其利用CNN模型将输入进行卷积操作,并利用K MAX pooling操作,最终将变长的文本序列输出为定长的序列,这种方式能够获取短文本和长文本之间的关系。文章在4个数据集进行了测试。 DC 阅读全文
摘要:
[TOC] 1、RNN和LSTM简介 首先我们来简要介绍一下RNN模型和LSTM模型,这样,我们可以很好的理解后面的延伸的模型。可以参考 "RNN和LSTM模型详解" 2、tree LSTM模型 tree LSTM是由Kai Sheng Tai[1]等人提出的一种在LSTM基础上改进的一种算法,这是 阅读全文
摘要:
本文介绍RNN模型和LSTM模型。 RNN 为什么会出现RNN 在传统的深度神经网络模型中,我们的输入信息是没有顺序的,比如,NLP领域中,我们输入单词经常使用embedding,将词汇映射为词向量,然后输入到神经网络。但是这种输入方式会有一些问题,比如,"我 爱 你"和"你 爱 我"在传统的神经网 阅读全文
摘要:
[TOC] DAN(Deep Average Network) MLP(Multi Layer Perceptrons)叫做多层感知机,即由多层网络简单堆叠而成,进而我们可以在输出层加入softmax,或者将输入层作为特征进行提取后,输入到SVM,逻辑回归,朴素贝叶斯等传统分类器进行分类预测。其中最 阅读全文
摘要:
[TOC] 前言 记得第一次接触word2vec的时候是在研二的时候,当时看了一些介绍的博客,对word2vec的原理有了一些了解,但是对于其中的细节,推导等没有理解的透彻,后来也不知道什么原因,就将其搁置了。最近有了一些时间,准备写一个预训练语言模型的系列,所以准备先拿word2vec开刀,热热身 阅读全文
摘要:
[TOC] 前言 由于工作需要,需要利用网线将自己的笔记本和Linux台式机进行连接,实现Windows可以远程登录Linux机器,并实现Linux共享Windows的WiFi网络。 网上的很多方法可以实现两台机器互ping,但是我这边一旦连上无线网,这两台机器就ping不通了。经过反复折腾,终于搞 阅读全文