摘要: albert相对BERT而言主要有三个改进方向: 1、对Embedding因式分解 在BERT中,词向量维度E和隐层维度H是相等的。而词嵌入学习的是单词与上下文无关的表示,而隐层则是学习与上下文相关的表示。显然后者更加复杂,需要更多的参数,也就是说模型应当增大隐层大小 ,或者说满足 。在实际中,词表 阅读全文
posted @ 2020-10-28 15:58 sunshine丶23 阅读(170) 评论(0) 推荐(0) 编辑
摘要: StructBERT模型是达摩院提出的Bert系列模型,相比BERT模型而言,主要增加了两个预训练任务来提升模型性能: 1、Word Structural Objective Word Structural Objective是从未被遮掩的序列中以5%的几率选择部分长度为3子序列,将子序列中的词序打 阅读全文
posted @ 2020-10-26 16:07 sunshine丶23 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 之前学习了隐马尔可夫模型,现在记录一下条件随机场。本文主要参考了《统计学习方法》,如有错误,请各位多多指教 1、什么是条件随机场 首先我们先了解什么是随机场。 在概率论中,随机场的定义为:由样本空间Ω = {0, 1, ..., G − 1}n取样构成的随机变量Xi所组成的S = {X1, ..., 阅读全文
posted @ 2019-11-20 19:48 sunshine丶23 阅读(646) 评论(0) 推荐(0) 编辑
摘要: Transformer模型由《Attention is All You Need》提出,有一个完整的Encoder-Decoder框架,其主要由attention(注意力)机制构成。论文地址:https://arxiv.org/abs/1706.03762。 其整体结构如图所示: 模型分为编码器(E 阅读全文
posted @ 2019-11-15 20:55 sunshine丶23 阅读(3771) 评论(0) 推荐(0) 编辑
摘要: 本文主要参考了《统计学习方法》及https://github.com/aespresso/a_journey_into_math_of_ml 请各位大佬多多指正。 隐马尔可夫模型(hidden Markov model, HMM)描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。可用于自动 阅读全文
posted @ 2019-11-05 09:12 sunshine丶23 阅读(518) 评论(0) 推荐(0) 编辑
摘要: 最近项目需要对部分python文件加密,调研了部分方法都觉得不可行,最后采用了将python转换成so文件、pyd文件的方法。so文件,为liunx下的动态链接库文件,在windows下为dll文件,pyd文件是Python的动态模块,实质是dll文件,反编译难度较大,应该可以达到加密的效果。 安装 阅读全文
posted @ 2019-10-28 19:36 sunshine丶23 阅读(1365) 评论(0) 推荐(0) 编辑