摘要:
这里的偏差不是我们之前所说的偏置,而是下面 以性别歧视为例,假设经过 可视化之后的图像是下面这个样子 除偏的步骤如下 识别性别所代表的方向。我们在训练出来嵌入矩阵后,嵌入矩阵的每一行都是某个高维空间的一个坐标轴,我们使用SVD将这个高维空间中性别所代表的方向找出来 注意 阅读全文
摘要:
情感分类是说将一个句子输入分类器,分类器判断这个句子是消极的还是积极的(不一定是二分类问题,分类器也可以输出消极或者积极的程度) 一个简单的分类器如下 简单来说就是求出各个单词的 之后将他们加起来并平均然后传入 层 这个算法有一个缺点就是忽略了单词的顺序,比 阅读全文
摘要:
介绍一下 算法。非常简单的一个算法,训练集由 和 组成,前者是一个句子中的某一个单词,后者是这个句子中这个单词临近的某个词。举例如下 我们获得单词的嵌入向量后,就放入神经网络中去跑,再利用\(\t 阅读全文
摘要:
以判断人名为例。如果我们只使用独热编码,那么我们的训练集不能太大(否则维度爆炸),所以遇到了下面这种情况 我们没有在训练集中坚果durian和cultivator,导致我们没有判断出来Robert Lin是人名 但是如果我们使用词嵌入,我们的训练集就可以很大(从网上下载即可),然后通过神经网络将词嵌 阅读全文
摘要:
首先复习一下有放回抽样和无放回抽样的等价性。假设现在有 个不同物体,我们从中抽取 个物体。计算第 次抽到某个特定物品的概率。对于有放回抽样,概率为 ;对于无放回抽样,概率为\(\frac{A^{B-1}_{n-1}}{A^{B}_n}=\frac{ 阅读全文
摘要:
目录数据预处理导包查看数据特征工程目标变量特征衍生特征选择信用卡正常消费和盗刷对比交易金额和交易次数信用卡消费时间分析交易金额和交易时间的关系特征分布(非常重要,帮助筛选特征)特征缩放特征重要性模型训练过采样算法建模交叉验证模型评估精确度-召回率曲线ROC曲线各评估指标的对比 数据预处理 导包 除了 阅读全文
摘要:
式 应该有误,不等号左边还应该有一个项 ,之所以没写估计是因为认为 非常接近 ,所以可以忽略;另外不等号右边的括号打错了,应该是 \[2\underset{t=1}{\overset{T}{\sum}}\et 阅读全文