2025 年 2月 16 日随笔档案 - 最爱丁珰

2025年2月16日

摘要：这里的偏差不是我们之前所说的偏置，而是下面以性别歧视为例，假设经过

t-SNE

可视化之后的图像是下面这个样子除偏的步骤如下识别性别所代表的方向。我们在训练出来嵌入矩阵后，嵌入矩阵的每一行都是某个高维空间的一个坐标轴，我们使用SVD将这个高维空间中性别所代表的方向找出来注意阅读全文

posted @ 2025-02-16 22:23 最爱丁珰阅读(1) 评论(0) 推荐(0) 编辑

176 情感分类

摘要：情感分类是说将一个句子输入分类器，分类器判断这个句子是消极的还是积极的（不一定是二分类问题，分类器也可以输出消极或者积极的程度）一个简单的分类器如下简单来说就是求出各个单词的

e

之后将他们加起来并平均然后传入

Softmax

层这个算法有一个缺点就是忽略了单词的顺序，比阅读全文

posted @ 2025-02-16 21:55 最爱丁珰阅读(1) 评论(0) 推荐(0) 编辑

175 Golve词向量

摘要：

Golve

算法预处理出二维矩阵

X

，其中

X_{i j}

表示单词

i

出现在单词

j

的上下文的次数。在某些上下文定义（比如定义

i

是

j

的上下文指

i

在

j

的十个临近单词中）下，有

X_{i j} = X_{j i}

.目标函数如下其中阅读全文

posted @ 2025-02-16 21:50 最爱丁珰阅读(1) 评论(0) 推荐(0) 编辑

173 词转换成向量形式

摘要：介绍一下

Skip-Gram

算法。非常简单的一个算法，训练集由

context

和

target

组成，前者是一个句子中的某一个单词，后者是这个句子中这个单词临近的某个词。举例如下我们获得单词的嵌入向量后，就放入神经网络中去跑，再利用\(\t 阅读全文

posted @ 2025-02-16 21:12 最爱丁珰阅读(2) 评论(0) 推荐(0) 编辑

169 使用词嵌入

摘要：以判断人名为例。如果我们只使用独热编码，那么我们的训练集不能太大（否则维度爆炸），所以遇到了下面这种情况我们没有在训练集中坚果durian和cultivator，导致我们没有判断出来Robert Lin是人名但是如果我们使用词嵌入，我们的训练集就可以很大（从网上下载即可），然后通过神经网络将词嵌阅读全文

posted @ 2025-02-16 20:30 最爱丁珰阅读(0) 评论(0) 推荐(0) 编辑

11.5.2 小批量

摘要：首先复习一下有放回抽样和无放回抽样的等价性。假设现在有

n

个不同物体，我们从中抽取

B

个物体。计算第

i

次抽到某个特定物品的概率。对于有放回抽样，概率为

\frac{1}{n}

；对于无放回抽样，概率为\(\frac{A^{B-1}_{n-1}}{A^{B}_n}=\frac{ 阅读全文

posted @ 2025-02-16 18:58 最爱丁珰阅读(4) 评论(0) 推荐(0) 编辑

第二课信用卡欺诈预测

摘要：目录数据预处理导包查看数据特征工程目标变量特征衍生特征选择信用卡正常消费和盗刷对比交易金额和交易次数信用卡消费时间分析交易金额和交易时间的关系特征分布（非常重要，帮助筛选特征）特征缩放特征重要性模型训练过采样算法建模交叉验证模型评估精确度-召回率曲线ROC曲线各评估指标的对比数据预处理导包除了阅读全文

posted @ 2025-02-16 18:30 最爱丁珰阅读(11) 评论(0) 推荐(0) 编辑

11.4.3 凸目标的收敛性分析

摘要：式

(11.47)

应该有误，不等号左边还应该有一个项

- E [| | x_{T} - x^{*} | |^{2}]

，之所以没写估计是因为认为

x_{T}

非常接近

x^{*}

，所以可以忽略；另外不等号右边的括号打错了，应该是 \[2\underset{t=1}{\overset{T}{\sum}}\et 阅读全文

posted @ 2025-02-16 10:38 最爱丁珰阅读(3) 评论(0) 推荐(0) 编辑

公告

昵称：最爱丁珰
园龄： 3年7个月
粉丝： 3
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

最爱丁珰

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜