04 2022 档案
摘要:假设通过用户 - 物品相似度进行个性化推荐 用户和物品的 Embedding 都在一个 \(k\) 维的 Embedding 空间中,物品总数为 \(n\),计算一个用户和所有物品向量相似度的时间复杂度是$ O(k*n)$ 直觉的解决方案 基于聚类 基于索引 基于聚类的思想 优点: 离线计算好每个
阅读全文
摘要:模型压缩 网络剪枝 Netwrok pruning 剪掉网络中无用的参数。 有意思的图,连接先增加后减少。 train large model 评估重要性 参数重要性(以参数为剪枝单位) 比如根据权重的绝对值 神经元重要性(以神经元为剪枝单位) 比如 神经元是否为0 剪掉不重要的 微调小模型,重复执
阅读全文
摘要:模型层间差分学习率 一般在微调Bert等预训练模型时使用,可以配合warmup,见warmup小记。 tensorflow 几行搞定,参考官方文档[1] import tensorflow_addons as tfa optimizers = [ tf.keras.optimizers.Adam(l
阅读全文
摘要:什么是warmup 热身,在刚刚开始训练时以很小的学习率进行训练,使得网络熟悉数据,随着训练的进行学习率慢慢变大,到了一定程度,以设置的初始学习率进行训练,接着过了一些inter后,学习率再慢慢变小; 学习率变化:上升——平稳——下降 为什么用warmup 有助于减缓模型在初始阶段对mini-bat
阅读全文
摘要:模型召回之SimCSE dataset unsuper import numpy as np import math class UnsuperviseData(tf.keras.utils.Sequence): def __init__(self, x_set, batch_size): self
阅读全文
摘要:模型召回之DSSM 双塔模型 负样本构造:训练前构造或训练时批内构造 实现 model from transformers import AutoConfig,AutoTokenizer,TFAutoModel MODEL_NAME = "hfl/chinese-roberta-wwm-ext" t
阅读全文
摘要:综述: 万字综述!命名实体识别(NER)的过去和现在. https://mp.weixin.qq.com/s/sNXG-K5aPRFFQ3F373-e0A brat工具标注 LSTM_CRF https://zhuanlan.zhihu.com/p/44042528 https://github.c
阅读全文
摘要:方案: https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/neural_search 模型召回:双塔模型 DSSM、sentence-bert、simcse 向量检索利器:ANN [1] 最近邻搜索 (Neares
阅读全文
摘要:环境: python3.6 tensorflow2.6.0 使用 tf.saved_model.load 加载模型错误 AttributeError: '_UserObject' object has no attribute 'add_slot' 解决方案1: 升级到 tensorflow 2.7
阅读全文