随笔分类 -  Deep Learning

摘要:情景: 推荐召回模型训练,开始的几个epoch损失正常下降,在到某个epoch下loss突然为nan,但模型仍在继续training,最终在模型预测时,结果都为零。 查阅相关资料,可能的原因如下: 1)训练集中可能出现为NAN的特征; 2)自定义loss函数中,会存在分母为零的异常,可以加入微小的长 阅读全文
posted @ 2022-06-20 19:52 今夜无风 阅读(1323) 评论(0) 推荐(0) 编辑
摘要:AUC是否能作为召回评估指标 首先,AUC是代表模型的排序能力,因为在召回环节考虑所有推荐物品的顺序没有太大意义,所以不是一个好的评估指标。另外后面所有提到的AUC含义都是针对单个user的,即group by user AUC。 AUC和线上优化指标正相关? 不相关。我们先从AUC的计算说起,计算 阅读全文
posted @ 2022-06-02 09:46 今夜无风 阅读(636) 评论(0) 推荐(0) 编辑
摘要:简化NLP:TensorFlow中tf.strings的使用 TensorFlow中很早就包含了tf.strings这个模块,不过实话说,在tf 1.x的固定计算图的情况下,各种操作颇为复杂,我们在迎来了2.0中才更好可以看出tf.strings的威力。 tf.strings的其中一个重要的作用是可 阅读全文
posted @ 2022-05-31 11:37 今夜无风 阅读(404) 评论(0) 推荐(0) 编辑
摘要:class UnigramSampler: def __init__(self, corpus, power, sample_size): self.sample_size = sample_size self.vocab_size = None self.word_p = None counts 阅读全文
posted @ 2022-04-18 22:28 今夜无风 阅读(530) 评论(0) 推荐(0) 编辑
摘要:这是对之前知识的补漏:必须要拿适当的曝光未点击最为hard负样本,线上才能得到较好的效果。理论依据如下: 阅读全文
posted @ 2022-04-18 17:28 今夜无风 阅读(72) 评论(0) 推荐(0) 编辑
摘要:tf模型线上部署需要采用saved_model形式,现将踩过的坑记录如下: """ Function: h5 model to pb to saved_model """ import os import keras import tensorflow import tensorflow as tf 阅读全文
posted @ 2022-02-25 16:12 今夜无风 阅读(722) 评论(0) 推荐(0) 编辑
摘要:最近将之前所做项目查阅的资料进行汇总,比较琐碎,希望有些知识点或者想法能帮助到你。 参考文献地址:https://blog.csdn.net/u011412768/article/details/93404921https://blog.csdn.net/a2639491403/article/de 阅读全文
posted @ 2022-01-20 10:09 今夜无风 阅读(391) 评论(0) 推荐(0) 编辑
摘要:query意图搜索模块-意图解析1.对比通用搜索,boss求职搜索是结构化召回2.ner是指导召回关键信号在实际场景下,doc端的数据会包含很多结构化的字段,不同字段之间的语义差距会非常大,如果我们进行全字段检索,经常会出现一些语义漂移问题。比如,搜"销售专员",可能会找到"临时工",因为它的字段里 阅读全文
posted @ 2021-12-16 14:55 今夜无风 阅读(273) 评论(0) 推荐(0) 编辑
摘要:功能: 1)微调模型后,下游任务在此模型上继续开发模型,冻结12层。方法:加载微调模型后(不是google原始ckpt),在custom_optimization.py中仅梯度更新需要的variable update_var_list = [] tvars = tf.trainable_variab 阅读全文
posted @ 2021-05-19 20:32 今夜无风 阅读(966) 评论(0) 推荐(0) 编辑
摘要:大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作 阅读全文
posted @ 2020-12-14 20:39 今夜无风 阅读(858) 评论(0) 推荐(0) 编辑
摘要:例如,查找包含有“hello"关键词的行: cat file.txt | grep hello #实现查看关键字的所有行 cat file.txt | grep hello head -n 100 #实现查看关键字的前100行 cat file.txt | grep hello | tail -n 阅读全文
posted @ 2020-12-02 10:26 今夜无风 阅读(2316) 评论(0) 推荐(0) 编辑
摘要:使用pandas在做“与”操作时,居然要将各自的条件使用括号🔗起来,不知是何原因 x = new_df[(new_df['query_position'].isin(job_list)) & (new_df['job_position'].isin(job_list)) & (new_df['pa 阅读全文
posted @ 2020-12-01 10:52 今夜无风 阅读(74) 评论(0) 推荐(0) 编辑
摘要:数据总体上可以分为静态数据和流数据。对静态数据和流数据的处理,对应着两种截然不同的计算模式:批量计算和实时计算。批量计算以“静态数据”为对象,可以在很充裕的时间内对海量数据进行批量处理,计算得到有价值的信息。Hadoop就是典型的批处理模型,由HDFS和HBase存放大量的静态数据,由MapRedu 阅读全文
posted @ 2020-11-11 21:00 今夜无风 阅读(865) 评论(0) 推荐(0) 编辑
摘要:tfrecord数据文件是一种将图像数据和标签统一存储的二进制文件,能更好的利用内存,在tensorflow中快速的复制,移动,读取,存储等。尤其在面对海量数据时,使用常用的内存读取方式变得不切实际,tfrecored方式为我们带来了更大的便捷,同时还可以配合shuffe大大提高model的trai 阅读全文
posted @ 2020-10-09 21:56 今夜无风 阅读(374) 评论(0) 推荐(0) 编辑
摘要:​​简介 TensorFlow从0.8版本开始,支持分布式集群,并且自带了local server方便测试。 Local server和分布式服务的接口一样,我们将从local server入手,详细解读分布式机器学习集群的用法。 Local server的最简单用法 TensorFlow官方文档提 阅读全文
posted @ 2020-09-24 21:20 今夜无风 阅读(342) 评论(0) 推荐(0) 编辑
摘要:原理 BM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。 BM25算法的一般性公式如下: 其中,Q表示Qu 阅读全文
posted @ 2020-07-14 20:10 今夜无风 阅读(813) 评论(0) 推荐(0) 编辑
摘要:功能实现: input: 查询词 output:存现的对应的文档中的所有行号id 实现: 阅读全文
posted @ 2020-05-07 15:29 今夜无风 阅读(244) 评论(0) 推荐(0) 编辑
摘要:对一段文本中的人、事、地、物、组织、时间等关键要素进行抽取,以为下游提供数据支撑。针对时间抽取,发现一个小工具,分享给大家: 开源地址: https://github.com/zhanzecheng/Time_NLP 功能: 用于句子中时间词的抽取和转换 使用示例: res = tn.parse(t 阅读全文
posted @ 2020-05-07 09:27 今夜无风 阅读(1508) 评论(0) 推荐(0) 编辑
摘要:一个比较规整的特征映射及相似数据查询模块,留着备用: import gc import tqdm import numpy as np from gensim import corpora, models, similarities from sentence import Sentence fro 阅读全文
posted @ 2020-04-29 20:02 今夜无风 阅读(718) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示