Fork me on GitHub
摘要: 1. 整体框架 XGBoost的思想是通过决策树来预测残差,不断的预测直到最终的残差接近0为止。如下图所示,$T_1$、$T_2$表示决策树,$\hat{y}$表示预测值,$y$表示真值,$y-\hat{y}$表示预测值与真值之间的残差。 由于每一次的预测都会接近上一次的残差,所以最终的预测可以写成 阅读全文
posted @ 2020-03-30 16:00 webberg 阅读(743) 评论(0) 推荐(0) 编辑
摘要: 一般使用transformers做bert finetune时,经常会编写如下类似的代码: 在BertModel(BertPreTrainedModel)中,对返回值outputs的解释如下: 这里的pooler_output指的是输出序列最后一个隐层,即CLS标签。查看forward函数的源码,最 阅读全文
posted @ 2020-01-08 18:04 webberg 阅读(6690) 评论(5) 推荐(1) 编辑
摘要: ROC全称Receiver operating characteristic。 定义 TPR:true positive rate,正样本中分类正确的比率,即TP/(TP+FN),一般希望它越大越好 FPR:false negtive rage,负样本中分类错误的比率,即FP/(FP+TN),一般希 阅读全文
posted @ 2020-01-04 16:49 webberg 阅读(2903) 评论(0) 推荐(0) 编辑
摘要: pairwise_distance在sklearn的官网中解释为“从X向量数组中计算距离矩阵”,对不懂的人来说过于简单,不甚了了。 实际上,pairwise的意思是每个元素分别对应。因此pairwise_distance就是指计算两个输入矩阵X、Y之间对应元素的距离。 pairwise_distan 阅读全文
posted @ 2019-12-17 23:44 webberg 阅读(8345) 评论(0) 推荐(0) 编辑
摘要: torch.nn.Embedding存储的是形如num_embeddings*embedding_dim的矩阵,以词向量为例,num_embeddings表示词向量的个数,embedding_dim表示词向量的维度。 初始化: 它提供了从已知Tensor进行初始化的方法:nn.Embedding.f 阅读全文
posted @ 2019-10-30 18:19 webberg 阅读(11706) 评论(0) 推荐(1) 编辑
摘要: 目前已经有许多现成的深度学习框架,为什么我们还要用C++来编写一个神经网络?一个理由是我们需要了解学习框架内部的运行原理,当分析问题的时候能够很快的定位原因;另一个理由是,我们需要为专有设备编写一个推理引擎,它可能运行在手机端,或者移动设备上。这篇文章实现了一个最简单的神经网络框架,适合大家入门学习 阅读全文
posted @ 2019-09-26 16:31 webberg 阅读(1206) 评论(0) 推荐(0) 编辑
摘要: 在stanfordnlp的示例代码中,有这么一句: 这句话会打印出三列,第一列是分割出的单词,第三列是依存句法关系 依存关系手册链接为:https://nlp.stanford.edu/software/dependencies_manual.pdf 最新的链接为:http://universald 阅读全文
posted @ 2019-08-15 15:16 webberg 阅读(6394) 评论(0) 推荐(3) 编辑
摘要: 朴素贝叶斯文本分类应该是最简单的文本分类器了。它基于这么一个假设:在给定类别的文档中,所有的词都是独立无关的。 朴素贝叶斯做文本分类的原理如下: 令d代表输入文档,c代表文档所属类别。分类的目标是要 求在输入d文档的前提下属于类别c的概率$P(c|d)$,概率越高说明文档越有可能属于类别c。即 $\ 阅读全文
posted @ 2019-08-03 22:31 webberg 阅读(384) 评论(0) 推荐(0) 编辑
摘要: word2vec完整的解释可以参考《word2vec Parameter Learning Explained》这篇文章。 cbow模型 cbow模型的全称为Continuous Bag-of-Word Model。该模型的作用是根据给定的词$w_{input}$,预测目标词出现的概率$w_t$,对 阅读全文
posted @ 2019-04-15 23:36 webberg 阅读(6497) 评论(0) 推荐(0) 编辑
摘要: 对于初学深度学习的人来说,直接上手NLP的梯度较大。 首先,理解词向量就有一定的困难。关于词向量的的详细描述,可以参考《word2vec Parameter Learning Explained》的解释。一个100列的词向量可以简单理解为有100个特征(feature)的向量,如同一个人有100个特 阅读全文
posted @ 2019-04-03 22:51 webberg 阅读(6610) 评论(1) 推荐(0) 编辑