摘要:
一、设计哲学 pytorch-lightning 是建立在pytorch之上的高层次模型接口。 pytorch-lightning 之于 pytorch,就如同keras之于 tensorflow。 通过使用 pytorch-lightning,用户无需编写自定义训练循环就可以非常简洁地在CPU、单 阅读全文
摘要:
转自:https://zhuanlan.zhihu.com/p/104307718 背景 在推荐、搜索、广告等领域,CTR(click-through rate)预估是一项非常核心的技术,这里引用阿里妈妈资深算法专家朱小强大佬的一句话:“它(CTR预估)是镶嵌在互联网技术上的明珠”。 本篇文章主要是 阅读全文
摘要:
一、torch.nn.Embedding 模块可以看做一个字典,字典中每个索引对应一个词和词的embedding形式。利用这个模块,可以给词做embedding的初始化操作 torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=N 阅读全文
摘要:
torch.utils.data.Dataset与torch.utils.data.DataLoader的理解 pytorch提供了一个数据读取的方法,其由两个类构成:torch.utils.data.Dataset和DataLoader 我们要自定义自己数据读取的方法,就需要继承torch.uti 阅读全文
摘要:
常见的id类特征有用户特征user_id,物品特征item_id等,通常来说这类特征都是人为按顺序编码的特征,并不能反映用户或者物品的自然属性特征。但是在很多推荐相关的文章,都有提到使用这类特征,而且似乎还非常重要,并且除了推荐系统,在计算广告、反欺诈风控模型里都有成功的案例。这是为什么呢? 一、I 阅读全文
摘要:
一、概述: GRU(Gate Recurrent Unit)是LSTM网络的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好,因此也是当前非常流形的一种网络。GRU既然是LSTM的变体,因此也是可以解决RNN网络中的长依赖问题。 在LSTM中引入了三个门函数:输入门、遗忘门和输出门 阅读全文
摘要:
本文通过让LSTM学习字母表,来预测下一个字母,详细的请参考: https://blog.csdn.net/zwqjoy/article/details/80493341 https://machinelearningmastery.com/understanding-stateful-lstm-r 阅读全文
摘要:
一、Sateful参数介绍 在Keras调用LSTM的参数中,有一个stateful参数,默认是False,也就是无状态模式stateless,为True的话就是有状态模式stateful,所以这里我们就归为两种模式: 有状态模型(stateful LSTM) 无状态模型(stateless LST 阅读全文
摘要:
一、LSTM原理介绍 RNN虽然理论上也能循环处理长序列,但是由于其结构简单,单元里面只是一个基于tanh激活函数的前馈网络在循环,对于长序列中的哪些信息需要记忆、哪些序列需要忘记,RNN是无法处理的。序列越长,较早的信息就应该忘记,由新的信息来代替,因为上下文语境意境发生了变化,既然RNN无法处理 阅读全文
摘要:
一、背景介绍 BERT和RoBERTa在文本语义相似度等句子对的回归任务上,已经达到了SOTA的结果。但是,它们都需要把两个句子同时喂到网络中,这样会导致巨大的计算开销:从10000个句子中找出最相似的句子对,大概需要5000万(C100002=49,995,000)个推理计算,在V100GPU上耗 阅读全文