07 2021 档案
摘要:分类任务 1. 信息增益 信息增益直观理解:在选定特征对数据进行划分后,数据分布不确定性减少的程度,信息增益越大的特征越好。 信息增益的缺点 信息增益倾向于选择类别数较多的特征 这怎么解释呢?从信息增益的计算公式可以看出,不管是选择什么特征,H(D) 项表述的是原数据分布的熵,是一样的,那我们只需要
阅读全文
摘要:广告召回现状 现有的广告召回模型一般会分两步: 1. 首先用一个双塔模型去学习user embedding 和 ad embedding 2. 然后对于每个user embedding,用诸如HNSW、ball tree等方法召回相似向量 缺点:模型训练和向量召回是分离的,召回无法反馈到训练 Dee
阅读全文
摘要:Jensen不等式 如果f是凸函数,X是随机变量,那么: 当且仅当X是常量时,该式取等号 凸函数: 设f是定义域为实数的函数,如果对所有的实数x,f(x)的二阶导数都大于0,那么f是凸函数 注:Jensen不等式应用于凹函数时,不等号方向反向。当且仅当x是常量时,该不等式取等号。 EM算法推导流程
阅读全文
摘要:背景 传统的cvr模型是在click样本上训练的,但是inference是在所有样本上做,这可能会导致样本选择偏差。(据我理解,这个样本上的偏差是不可能完全消除的,因为无论是ctr、cvr模型,都是在send之后的样本上训练的,但是inference的时候是不知道这个样本会不会被send的) 模型结
阅读全文
摘要:定义了call 函数之后,类可以像函数一样调用(实际调用的是call函数) class A(object): def __init__(self, name, age): self.name = name self.age = age def __call__(self): print('my na
阅读全文
摘要:1 . 修饰函数 看装饰器这一节 https://www.cnblogs.com/xumaomao/articles/10984271.html 2. @staticmethod 相当于C++里的静态函数 #!/usr/bin/ env python # -*- coding:utf-8 -*- c
阅读全文
摘要:命令: gdb 二进制文件名 core文件名、 查看core文件位置:sysctl kernel.core_pattern 参考资料: https://blog.csdn.net/K346K346/article/details/48344263
阅读全文
摘要:KD 树的缺点: 1. kd 树适合实例数远大于向量维度的情况,当实例数和向量维度相当时,查询复杂度几乎是线性的 2. kd 树划分的区域是一个个矩形其余,而在查找最近节点时是以球形区域判断的,导致查找效率有损 Ball tree改进了区域划分方法,直接用球形区域去划分 Ball tree 构建 1
阅读全文
摘要:相似向量的召回是推荐系统中召回阶段中非常重要的一个步骤,便利所有向量的召回方法性能太差,KD树先对向量空间进行了切分,只需要检索部分向量空间就可以获得检索结果,大大加快了检索效率。 如果实例点是随机分布的,kd树的时间复杂度是O(logN) KD 树的构造 1. 选择切分向量空间的维度,常用的有两种
阅读全文
摘要:FTRL优化算法是专们针对LR算法设计的优化算法,传统的优化算法无法在保证算法精度的同时得到稀疏解 FTRL优化算法的权重更新公式: 伪代码: 参考资料 https://www.cnblogs.com/EE-NovRain/p/3810737.html https://www.jianshu.com
阅读全文
摘要:01背包问题 问题描述 有一个容量为 V 的背包,和一些物品。这些物品分别有两个属性,体积 w 和价值 v(都大于0),每种物品只有一个。要求用这个背包装下价值尽可能多的物品,求该最大价值。 1. 背包可以不被装满 for (int i=0; i<N; i++) { for (int j=v[i];
阅读全文