上一页 1 2 3 4 5 6 7 8 9 ··· 25 下一页
摘要: 一、概述 Albert是谷歌在Bert基础上设计的一个精简模型,主要为了解决Bert参数过大、训练过慢的问题。Albert主要通过两个参数削减技术克服预训练模型扩展的障碍: 1、Factorized embedding parameterization(embedding参数因式分解),将大的词嵌入 阅读全文
posted @ 2020-04-23 16:54 光彩照人 阅读(2518) 评论(0) 推荐(0) 编辑
摘要: 一、概述推荐系统 推荐系统的目标是给用户推荐喜欢或者需要的内容,做好推荐系统从宏观上看就是要做好如下三点: 深入理解用户,包括用户的基本属性,社会属性、行为属性等,从而知道用户喜欢什么,需要什么 对资源的刻画,将资源的信息充分挖掘提炼出来 选择适合业务场景的策略与模型,将用户和资源实现最佳匹配,这部 阅读全文
posted @ 2020-03-25 10:58 光彩照人 阅读(2984) 评论(0) 推荐(0) 编辑
摘要: 一、任务背景介绍 本次训练实战参照的是该篇博客文章:https://kexue.fm/archives/6933 本次训练任务采用的是THUCNews的数据集,THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,由多个类别的新闻标题和内容组 阅读全文
posted @ 2020-03-09 15:04 光彩照人 阅读(2270) 评论(0) 推荐(0) 编辑
摘要: 一、多输入和多输出模型 考虑这样一个模型。我们希望预测Twitter上一条新闻会被转发和点赞多少次。模型的主要输入是新闻本身,也就是一个词语的序列。但我们还可以拥有额外的输入,如新闻发布的日期等。这个模型的损失函数将由两部分组成,辅助的损失函数评估仅仅基于新闻本身做出预测的情况,主损失函数评估基于新 阅读全文
posted @ 2020-03-05 09:23 光彩照人 阅读(626) 评论(0) 推荐(0) 编辑
摘要: 一、Bert Model流程图 二、Bert所用Transformer内部结构图 三、Masked LM预训练示意图 四、Next Sentence Prediction预训练示意图 可视化一步步讲用bert进行情感分析:https://blog.csdn.net/jclian91/article/ 阅读全文
posted @ 2020-03-02 18:02 光彩照人 阅读(2733) 评论(0) 推荐(0) 编辑
摘要: 一、Masked LM get_masked_lm_output函数用于计算「任务#1」的训练 loss。输入为 BertModel 的最后一层 sequence_output 输出([batch_size, seq_length, hidden_size]),先找出输出结果中masked掉的词,然 阅读全文
posted @ 2020-03-02 17:48 光彩照人 阅读(2940) 评论(0) 推荐(0) 编辑
摘要: 一、注意力层(attention layer) 重要:本层主要就是根据论文公式计算token之间的attention_scores(QKT),并且做softmax之后变成attention_probs,最后再与V相乘。值得注意的是,中间利用了attention_mask的技巧,返回多头注意力值。 d 阅读全文
posted @ 2020-03-01 11:41 光彩照人 阅读(2504) 评论(0) 推荐(1) 编辑
摘要: 一、BertModel主入口 class BertModel(object): """BERT model ("Bidirectional Encoder Representations from Transformers"). Example usage: ```python # Already 阅读全文
posted @ 2020-02-29 12:13 光彩照人 阅读(4541) 评论(1) 推荐(2) 编辑
摘要: 一、背景与算法介绍 Transformer结构被广泛应用与自然语言处理中,并且在许多任务上都产生了当前最好的效果。为了达到进一步的效果,研究人员已经开始训练更大的Transformer模型。在某些报告的最大配置中,每层参数的数量超过了5亿(0.5B),而层的数量增加到了64层。Transformer 阅读全文
posted @ 2020-02-07 23:03 光彩照人 阅读(2966) 评论(0) 推荐(2) 编辑
摘要: 一、概述 近邻搜索在计算机科学中是一个非常基础的问题,在信息检索、模式识别、机器学习、聚类等领域有着广泛的应用。如果在d维空间中,我们有n个数据点,采用暴力搜索寻找最近邻的时间复杂度为O(dn)。当前我们的数据量越来越大,因此我们需要一些新的数据结构来查找最近邻,使得任意给定一个数据就能快速找到近邻 阅读全文
posted @ 2020-02-01 18:28 光彩照人 阅读(2296) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 25 下一页