03 2020 档案
摘要:概述: keras在进行模型训练的时候,如何能够动态可视化的显示训练集和验证集上的精度和损失?有个项目名叫hualos实现了这一功能,作者为François Chollet和Eder Santana,前面的作者就是Keras的创造者,同时也是书籍《Deep Learning with Python》
阅读全文
摘要:一、图示两种方式的不同 LN:Layer Normalization,LN是“横”着来的,对一个样本,不同的神经元neuron间做归一化。 BN:Batch Normalization,BN是“竖”着来的,各个维度做归一化,所以与batch size有关系。 二者提出的目的都是为了加快模型收敛,减少
阅读全文
摘要:一、概述推荐系统 推荐系统的目标是给用户推荐喜欢或者需要的内容,做好推荐系统从宏观上看就是要做好如下三点: 深入理解用户,包括用户的基本属性,社会属性、行为属性等,从而知道用户喜欢什么,需要什么 对资源的刻画,将资源的信息充分挖掘提炼出来 选择适合业务场景的策略与模型,将用户和资源实现最佳匹配,这部
阅读全文
摘要:一、索引、切片、迭代 一维的数组可以进行索引、切片和迭代操作的,就像 列表 和其他Python序列类型一样。 >>> a = np.arange(10)**3 >>> a array([ 0, 1, 8, 27, 64, 125, 216, 343, 512, 729]) >>> a[2] 8 >>
阅读全文
摘要:一、基础知识 NumPy的数组类被调用ndarray。它也被别名所知 array。请注意,numpy.array这与标准Python库类不同array.array,后者只处理一维数组并提供较少的功能。ndarray对象更重要的属性是: ndarray.ndim - 数组的轴(维度)的个数。在Pyth
阅读全文
摘要:一、任务背景介绍 本次训练实战参照的是该篇博客文章:https://kexue.fm/archives/6933 本次训练任务采用的是THUCNews的数据集,THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,由多个类别的新闻标题和内容组
阅读全文
摘要:一、to_categorical from keras.utils import to_categorical #类别向量定义 b = [0,1,2,3,2,1] #调用to_categorical将b按照4个类别来进行转换,也就是b中数字只能来自【0,1,2,3】,因为是从0开始编码的。 b =
阅读全文
摘要:采用国内镜像安装,示例如下: pip install tensorflow-gpu==1.15.0 -i https://pypi.doubanio.com/simple pip --default-timeout=1000000 install -U -i https://pypi.tuna.ts
阅读全文
摘要:一、基本定义方法 当然,Lambda层仅仅适用于不需要增加训练参数的情形,如果想要实现的功能需要往模型新增参数,那么就必须要用到自定义Layer了。其实这也不复杂,相比于Lambda层只不过代码多了几行,官方文章已经写得很清楚了:https://keras.io/layers/writing-you
阅读全文
摘要:一、Lambda层的使用 keras.layers.Lambda(function, output_shape=None, mask=None, arguments=None) 作用:将任意表达式封装为 Layer 对象 from keras.layers import Input, Dense,L
阅读全文
摘要:参考链接: https://blog.csdn.net/sinat_29217765/article/details/94024519 https://blog.csdn.net/zhanshen112/article/details/96207454 两个求亲测有效。
阅读全文
摘要:一、多输入和多输出模型 考虑这样一个模型。我们希望预测Twitter上一条新闻会被转发和点赞多少次。模型的主要输入是新闻本身,也就是一个词语的序列。但我们还可以拥有额外的输入,如新闻发布的日期等。这个模型的损失函数将由两部分组成,辅助的损失函数评估仅仅基于新闻本身做出预测的情况,主损失函数评估基于新
阅读全文
摘要:一、Bert Model流程图 二、Bert所用Transformer内部结构图 三、Masked LM预训练示意图 四、Next Sentence Prediction预训练示意图 可视化一步步讲用bert进行情感分析:https://blog.csdn.net/jclian91/article/
阅读全文
摘要:一、Masked LM get_masked_lm_output函数用于计算「任务#1」的训练 loss。输入为 BertModel 的最后一层 sequence_output 输出([batch_size, seq_length, hidden_size]),先找出输出结果中masked掉的词,然
阅读全文
摘要:一、注意力层(attention layer) 重要:本层主要就是根据论文公式计算token之间的attention_scores(QKT),并且做softmax之后变成attention_probs,最后再与V相乘。值得注意的是,中间利用了attention_mask的技巧,返回多头注意力值。 d
阅读全文