摘要: 这里的偏差不是我们之前所说的偏置,而是下面 以性别歧视为例,假设经过t-SNE可视化之后的图像是下面这个样子 除偏的步骤如下 识别性别所代表的方向。我们在训练出来嵌入矩阵后,嵌入矩阵的每一行都是某个高维空间的一个坐标轴,我们使用SVD将这个高维空间中性别所代表的方向找出来 注意 阅读全文
posted @ 2025-02-16 22:23 最爱丁珰 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 情感分类是说将一个句子输入分类器,分类器判断这个句子是消极的还是积极的(不一定是二分类问题,分类器也可以输出消极或者积极的程度) 一个简单的分类器如下 简单来说就是求出各个单词的e之后将他们加起来并平均然后传入Softmax层 这个算法有一个缺点就是忽略了单词的顺序,比 阅读全文
posted @ 2025-02-16 21:55 最爱丁珰 阅读(1) 评论(0) 推荐(0) 编辑
摘要: Golve算法预处理出二维矩阵X,其中Xij表示单词i出现在单词j的上下文的次数。在某些上下文定义(比如定义ij的上下文指ij的十个临近单词中)下,有Xij=Xji.目标函数如下 其中 阅读全文
posted @ 2025-02-16 21:50 最爱丁珰 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 介绍一下Skip-Gram算法。非常简单的一个算法,训练集由contexttarget组成,前者是一个句子中的某一个单词,后者是这个句子中这个单词临近的某个词。举例如下 我们获得单词的嵌入向量后,就放入神经网络中去跑,再利用\(\t 阅读全文
posted @ 2025-02-16 21:12 最爱丁珰 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 以判断人名为例。如果我们只使用独热编码,那么我们的训练集不能太大(否则维度爆炸),所以遇到了下面这种情况 我们没有在训练集中坚果durian和cultivator,导致我们没有判断出来Robert Lin是人名 但是如果我们使用词嵌入,我们的训练集就可以很大(从网上下载即可),然后通过神经网络将词嵌 阅读全文
posted @ 2025-02-16 20:30 最爱丁珰 阅读(0) 评论(0) 推荐(0) 编辑
摘要: 首先复习一下有放回抽样和无放回抽样的等价性。假设现在有n个不同物体,我们从中抽取B个物体。计算第i次抽到某个特定物品的概率。对于有放回抽样,概率为1n;对于无放回抽样,概率为\(\frac{A^{B-1}_{n-1}}{A^{B}_n}=\frac{ 阅读全文
posted @ 2025-02-16 18:58 最爱丁珰 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 目录数据预处理导包查看数据特征工程目标变量特征衍生特征选择信用卡正常消费和盗刷对比交易金额和交易次数信用卡消费时间分析交易金额和交易时间的关系特征分布(非常重要,帮助筛选特征)特征缩放特征重要性模型训练过采样算法建模交叉验证模型评估精确度-召回率曲线ROC曲线各评估指标的对比 数据预处理 导包 除了 阅读全文
posted @ 2025-02-16 18:30 最爱丁珰 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 式(11.47)应该有误,不等号左边还应该有一个项E[||xTx||2],之所以没写估计是因为认为xT非常接近x,所以可以忽略;另外不等号右边的括号打错了,应该是 \[2\underset{t=1}{\overset{T}{\sum}}\et 阅读全文
posted @ 2025-02-16 10:38 最爱丁珰 阅读(3) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示