随笔分类 - Deep Learning

Keras模型训练过程中loss为Nan情况分析与处理

摘要：情景：推荐召回模型训练，开始的几个epoch损失正常下降，在到某个epoch下loss突然为nan，但模型仍在继续training，最终在模型预测时，结果都为零。查阅相关资料，可能的原因如下： 1）训练集中可能出现为NAN的特征； 2）自定义loss函数中，会存在分母为零的异常，可以加入微小的长阅读全文

posted @ 2022-06-20 19:52 今夜无风阅读(1323) 评论(0) 推荐(0) 编辑

推荐-召回离线评估指标

摘要：AUC是否能作为召回评估指标首先，AUC是代表模型的排序能力，因为在召回环节考虑所有推荐物品的顺序没有太大意义，所以不是一个好的评估指标。另外后面所有提到的AUC含义都是针对单个user的，即group by user AUC。 AUC和线上优化指标正相关？不相关。我们先从AUC的计算说起，计算阅读全文

posted @ 2022-06-02 09:46 今夜无风阅读(636) 评论(0) 推荐(0) 编辑

简化NLP：TensorFlow中tf.strings的使用

摘要：简化NLP：TensorFlow中tf.strings的使用 TensorFlow中很早就包含了tf.strings这个模块，不过实话说，在tf 1.x的固定计算图的情况下，各种操作颇为复杂，我们在迎来了2.0中才更好可以看出tf.strings的威力。 tf.strings的其中一个重要的作用是可阅读全文

posted @ 2022-05-31 11:37 今夜无风阅读(404) 评论(0) 推荐(0) 编辑

推荐系统-召回-负采样python代码

摘要：class UnigramSampler: def __init__(self, corpus, power, sample_size): self.sample_size = sample_size self.vocab_size = None self.word_p = None counts 阅读全文

posted @ 2022-04-18 22:28 今夜无风阅读(530) 评论(0) 推荐(0) 编辑

推荐系统-召回部分-样本构建

摘要：这是对之前知识的补漏：必须要拿适当的曝光未点击最为hard负样本，线上才能得到较好的效果。理论依据如下：阅读全文

posted @ 2022-04-18 17:28 今夜无风阅读(72) 评论(0) 推荐(0) 编辑

Keras模型转换：h5-> pb -> saved_model

摘要：tf模型线上部署需要采用saved_model形式，现将踩过的坑记录如下： """ Function: h5 model to pb to saved_model """ import os import keras import tensorflow import tensorflow as tf 阅读全文

posted @ 2022-02-25 16:12 今夜无风阅读(722) 评论(0) 推荐(0) 编辑

Hive&Spark知识汇总

摘要：最近将之前所做项目查阅的资料进行汇总，比较琐碎，希望有些知识点或者想法能帮助到你。参考文献地址：https://blog.csdn.net/u011412768/article/details/93404921https://blog.csdn.net/a2639491403/article/de 阅读全文

posted @ 2022-01-20 10:09 今夜无风阅读(391) 评论(0) 推荐(0) 编辑

用户搜索意图几点总结

摘要：query意图搜索模块-意图解析1.对比通用搜索，boss求职搜索是结构化召回2.ner是指导召回关键信号在实际场景下，doc端的数据会包含很多结构化的字段，不同字段之间的语义差距会非常大，如果我们进行全字段检索，经常会出现一些语义漂移问题。比如，搜"销售专员"，可能会找到"临时工"，因为它的字段里阅读全文

posted @ 2021-12-16 14:55 今夜无风阅读(273) 评论(0) 推荐(0) 编辑

玩烂bert--集成输出预测分类、特征向量、参数冻结、推理

摘要：功能： 1）微调模型后，下游任务在此模型上继续开发模型，冻结12层。方法：加载微调模型后（不是google原始ckpt），在custom_optimization.py中仅梯度更新需要的variable update_var_list = [] tvars = tf.trainable_variab 阅读全文

posted @ 2021-05-19 20:32 今夜无风阅读(966) 评论(0) 推荐(0) 编辑

HDFS、Spark、Hive等之间的关系

摘要：大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作阅读全文

posted @ 2020-12-14 20:39 今夜无风阅读(858) 评论(0) 推荐(0) 编辑

linux过滤文本中含有关键字的行

摘要：例如，查找包含有“hello"关键词的行： cat file.txt | grep hello #实现查看关键字的所有行 cat file.txt | grep hello head -n 100 #实现查看关键字的前100行 cat file.txt | grep hello | tail -n 阅读全文

posted @ 2020-12-02 10:26 今夜无风阅读(2316) 评论(0) 推荐(0) 编辑

pandas奇怪的&操作

摘要：使用pandas在做“与”操作时，居然要将各自的条件使用括号🔗起来，不知是何原因 x = new_df[(new_df['query_position'].isin(job_list)) & (new_df['job_position'].isin(job_list)) & (new_df['pa 阅读全文

posted @ 2020-12-01 10:52 今夜无风阅读(74) 评论(0) 推荐(0) 编辑

流计算

摘要：数据总体上可以分为静态数据和流数据。对静态数据和流数据的处理，对应着两种截然不同的计算模式：批量计算和实时计算。批量计算以“静态数据”为对象，可以在很充裕的时间内对海量数据进行批量处理，计算得到有价值的信息。Hadoop就是典型的批处理模型，由HDFS和HBase存放大量的静态数据，由MapRedu 阅读全文

posted @ 2020-11-11 21:00 今夜无风阅读(865) 评论(0) 推荐(0) 编辑

采用tfrecord形式读写训练数据

摘要：tfrecord数据文件是一种将图像数据和标签统一存储的二进制文件，能更好的利用内存，在tensorflow中快速的复制，移动，读取，存储等。尤其在面对海量数据时，使用常用的内存读取方式变得不切实际，tfrecored方式为我们带来了更大的便捷，同时还可以配合shuffe大大提高model的trai 阅读全文

posted @ 2020-10-09 21:56 今夜无风阅读(374) 评论(0) 推荐(0) 编辑

分布式TensorFlow集群local server使用详解

摘要：简介 TensorFlow从0.8版本开始，支持分布式集群，并且自带了local server方便测试。 Local server和分布式服务的接口一样，我们将从local server入手，详细解读分布式机器学习集群的用法。 Local server的最简单用法 TensorFlow官方文档提阅读全文

posted @ 2020-09-24 21:20 今夜无风阅读(342) 评论(0) 推荐(0) 编辑

BM25算法语义相似度计算

摘要：原理 BM25算法，通常用来作搜索相关性平分。一句话概况其主要思想：对Query进行语素解析，生成语素qi；然后，对于每个搜索结果D，计算每个语素qi与D的相关性得分，最后，将qi相对于D的相关性得分进行加权求和，从而得到Query与D的相关性得分。 BM25算法的一般性公式如下：其中，Q表示Qu 阅读全文

posted @ 2020-07-14 20:10 今夜无风阅读(813) 评论(0) 推荐(0) 编辑

构建倒排索引快速减速

摘要：功能实现： input：查询词 output：存现的对应的文档中的所有行号id 实现：阅读全文

posted @ 2020-05-07 15:29 今夜无风阅读(244) 评论(0) 推荐(0) 编辑

Time-NLP---中文时间表达词转换---统一抽取段落中的时间信息

摘要：对一段文本中的人、事、地、物、组织、时间等关键要素进行抽取，以为下游提供数据支撑。针对时间抽取，发现一个小工具，分享给大家：开源地址： https://github.com/zhanzecheng/Time_NLP 功能：用于句子中时间词的抽取和转换使用示例： res = tn.parse(t 阅读全文

posted @ 2020-05-07 09:27 今夜无风阅读(1508) 评论(0) 推荐(0) 编辑

根据传统的TFIDF快速进行相似性匹配

摘要：一个比较规整的特征映射及相似数据查询模块，留着备用： import gc import tqdm import numpy as np from gensim import corpora, models, similarities from sentence import Sentence fro 阅读全文

posted @ 2020-04-29 20:02 今夜无风阅读(718) 评论(0) 推荐(0) 编辑