随笔档案「2021年7月」 - AI_Engineer

决策树分裂时的特征选择

摘要：分类任务 1. 信息增益信息增益直观理解：在选定特征对数据进行划分后，数据分布不确定性减少的程度，信息增益越大的特征越好。信息增益的缺点信息增益倾向于选择类别数较多的特征这怎么解释呢？从信息增益的计算公式可以看出，不管是选择什么特征，H(D) 项表述的是原数据分布的熵，是一样的，那我们只需要阅读全文

posted @ 2021-07-31 18:48 AI_Engineer 阅读(441) 评论(0) 推荐(0)

字节跳动广告召回端到端算法 - Deep Retrieval 算法

摘要：广告召回现状现有的广告召回模型一般会分两步： 1. 首先用一个双塔模型去学习user embedding 和 ad embedding 2. 然后对于每个user embedding，用诸如HNSW、ball tree等方法召回相似向量缺点：模型训练和向量召回是分离的，召回无法反馈到训练 Dee 阅读全文

posted @ 2021-07-29 15:24 AI_Engineer 阅读(1032) 评论(0) 推荐(0)

EM 算法

摘要：Jensen不等式如果f是凸函数，X是随机变量，那么：当且仅当X是常量时，该式取等号凸函数：设f是定义域为实数的函数，如果对所有的实数x，f(x)的二阶导数都大于0，那么f是凸函数注：Jensen不等式应用于凹函数时，不等号方向反向。当且仅当x是常量时，该不等式取等号。 EM算法推导流程阅读全文

posted @ 2021-07-29 11:47 AI_Engineer 阅读(129) 评论(0) 推荐(0)

ESMM

摘要：背景传统的cvr模型是在click样本上训练的，但是inference是在所有样本上做，这可能会导致样本选择偏差。（据我理解，这个样本上的偏差是不可能完全消除的，因为无论是ctr、cvr模型，都是在send之后的样本上训练的，但是inference的时候是不知道这个样本会不会被send的）模型结阅读全文

posted @ 2021-07-29 11:14 AI_Engineer 阅读(220) 评论(0) 推荐(0)

python 中的 call 函数

摘要：定义了call 函数之后，类可以像函数一样调用（实际调用的是call函数） class A(object): def __init__(self, name, age): self.name = name self.age = age def __call__(self): print('my na 阅读全文

posted @ 2021-07-26 17:13 AI_Engineer 阅读(549) 评论(0) 推荐(0)

python 中的 @ 符号

摘要：1 . 修饰函数看装饰器这一节 https://www.cnblogs.com/xumaomao/articles/10984271.html 2. @staticmethod 相当于C++里的静态函数 #!/usr/bin/ env python # -*- coding:utf-8 -*- c 阅读全文

posted @ 2021-07-22 21:08 AI_Engineer 阅读(367) 评论(0) 推荐(0)

gdb 调试 core 文件

摘要：命令： gdb 二进制文件名 core文件名、查看core文件位置：sysctl kernel.core_pattern 调试过程中输入bt可以查看调用栈信息参考资料： https://blog.csdn.net/K346K346/article/details/48344263 阅读全文

posted @ 2021-07-19 17:52 AI_Engineer 阅读(63) 评论(0) 推荐(0)

Ball* tree

摘要：待补充阅读全文

posted @ 2021-07-18 16:48 AI_Engineer 阅读(26) 评论(0) 推荐(0)

Ball tree

摘要：KD 树的缺点： 1. kd 树适合实例数远大于向量维度的情况，当实例数和向量维度相当时，查询复杂度几乎是线性的 2. kd 树划分的区域是一个个矩形其余，而在查找最近节点时是以球形区域判断的，导致查找效率有损 Ball tree改进了区域划分方法，直接用球形区域去划分 Ball tree 构建 1 阅读全文

posted @ 2021-07-18 16:46 AI_Engineer 阅读(307) 评论(0) 推荐(0)

KD 树总结

摘要：相似向量的召回是推荐系统中召回阶段中非常重要的一个步骤，便利所有向量的召回方法性能太差，KD树先对向量空间进行了切分，只需要检索部分向量空间就可以获得检索结果，大大加快了检索效率。如果实例点是随机分布的，kd树的时间复杂度是O(logN) KD 树的构造 1. 选择切分向量空间的维度，常用的有两种阅读全文

posted @ 2021-07-18 15:51 AI_Engineer 阅读(250) 评论(0) 推荐(0)

FTRL（Follow The Regularized Leader）优化方法

摘要：1. 背景与核心思想 FTRL 是一种基于在线学习（Online Learning）的优化算法，最初由 Google 提出并应用于大规模稀疏场景（如推荐系统、广告点击率预测）。其核心思想是：结合自适应学习率：根据历史梯度调整不同参数的学习率，类似 RMSprop/Adam 的二阶矩机制。显式正则阅读全文

posted @ 2021-07-16 21:12 AI_Engineer 阅读(305) 评论(0) 推荐(0)

背包问题总结

摘要：01背包问题问题描述有一个容量为 V 的背包，和一些物品。这些物品分别有两个属性，体积 v 和价值 w（都大于0），每种物品只有一个。要求用这个背包装下价值尽可能多的物品，求该最大价值。 1. 背包可以不被装满 for (int i=0; i<N; i++) { for (int j=v[i]; 阅读全文

posted @ 2021-07-15 20:12 AI_Engineer 阅读(58) 评论(0) 推荐(0)

xd_xumaomao

07 2021 档案

公告