摘要: title1 title2 key1 key2 阅读全文
posted @ 2021-10-01 11:16 wa007 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 介绍 cbow:上下文词向量求和,预测中心词 skip-gram:中心词预测上下文 优化 1、哈夫曼树 把常规的 softmax 优化为 哈夫曼softmax,优化的是每个样本在哈夫曼树上的路径概率 与样本无关。 2、负采样 对每一个正样本,按照词频构建负样本,构建二分类任务,梯度下降求解。 可以用 阅读全文
posted @ 2021-08-22 22:28 wa007 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 基本概念 考虑 \(w1\) 和 \(w2\) 的共显频率,构建向量拟合共显频率,loss函数如下 \[ \sum_{w1,w2}{F(X_{ij})(w_i^T\hat{w_j} + b_i + \hat{b_j} - log(X_{ij}))^2} \] 最原始版本为单样本训练,即 bach_s 阅读全文
posted @ 2021-08-22 15:32 wa007 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 新词发现 定义 新词发现就是识别特定预料中不在字典中的词,所以新词又被称为「未登录词」,比如微博语料中的网络流行语,黑产语料中的黑话。 一般的做法是不依赖字典做无监督分词,分好的词减去已知字典,得到的就是新词。这样新词发现就被转换为分词任务,或者说是一个识别预料中的词的任务。 下面介绍几种基于统计的 阅读全文
posted @ 2021-07-27 10:17 wa007 阅读(508) 评论(0) 推荐(0) 编辑
摘要: 隐马尔可夫模型 马尔可夫性质:存在一个状态序列,未来的状态只与当前的状态相关,而不与历史状态相关 以每天的天气为例,明天的天气只与今天的天气相关,不与昨天、前天的天气相关。 马尔可夫过程:一个具备了马尔可夫性质的随机过程,与马尔可夫链的概念较像 隐马尔可夫模型:含有隐含参数的马尔可夫过程,包含两个等 阅读全文
posted @ 2021-07-27 10:16 wa007 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 1、fast text 利用英文的每个字母,生成Embedding vector 2、w2v:predicttive model 2.1、cbow 用周围词预测当前 将C个周围词的onehot向量求和,乘以 输入Embeding矩阵,变成C个周围词的隐藏层表示;再乘以输出Embeding的转置,变回 阅读全文
posted @ 2021-04-23 09:34 wa007 阅读(319) 评论(0) 推荐(0) 编辑
摘要: XDA device XDA 使用"惰性"机制的,类似pyspark的惰性机制,太难debug了,遂弃坑。 一个demo,是可以成功运行的,且可以打印出中间结果。https://www.kaggle.com/hzp007/vision-transformer-vit-tutorial-baselin 阅读全文
posted @ 2021-03-26 10:44 wa007 阅读(44) 评论(0) 推荐(0) 编辑
摘要: 梯度下降 https://zhuanlan.zhihu.com/p/32626442 SGD 原始的梯度下降算法:对参数减去当前参数的负梯度 动量算法 梯度=上一次的梯度 和 当前梯度的加权和 优点:减少收敛过程中的震荡,使得收敛过程更加平滑,能加速收敛过程。 Nesterov 比Momentum更 阅读全文
posted @ 2021-02-17 18:06 wa007 阅读(106) 评论(0) 推荐(0) 编辑
摘要: A、A - B = C 题目:给定L、R,求问存在多少个A、B、C三元组,使得A=B+C,其中L <= A <= R, L <= B <= R, L <= C <= R 答案:针对一个固定的A,存在满足条件的(B、C)两元组的数量为 A - 2 * L + 1,所以当你遍历A时,答案为一个等差数列, 阅读全文
posted @ 2021-02-13 23:01 wa007 阅读(271) 评论(0) 推荐(0) 编辑
摘要: A、判断三个字符是否相等,水题 1 #include<bits/stdc++.h> 2 using namespace std; 3 typedef long long ll; 4 const int maxn = 1e6 + 7; 5 const ll mod = 1e9 + 7; 6 7 int 阅读全文
posted @ 2021-01-23 22:14 wa007 阅读(143) 评论(0) 推荐(0) 编辑