摘要: 一、全链路精准预估技术: 参考:https://arxiv.org/abs/1804.07931 传统的多阶段建模在实际中存在SSB和DS问题: 多阶段模型的样本漏斗: 召回->粗排->精排->展现->点击->转化->复购 样本选择偏差 (Sample Selection Bias, SSB) 问题 阅读全文
posted @ 2018-08-01 13:44 Iris ^ 阅读(1917) 评论(0) 推荐(0) 编辑
摘要: 一、单层感知机(perceptron) 拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换到达输出层,在输出层得到分类结果; 缺点:无法模拟稍复杂一些的函数(例如简单的异或计算)。 解决办法:多层感知机。 二、多层感知机(multilayer perceptron) 有多个隐含层的感知机。 阅读全文
posted @ 2018-07-05 21:07 Iris ^ 阅读(6406) 评论(0) 推荐(0) 编辑
摘要: AB Test 介绍: https://vwo.com/ab-testing/ AB Test 的意义: 数据分析告诉我们要不要去做一件事情,ab 实验反馈告诉我们我们做得好不好,哪里有问题,以及衡量可以带来多少确定性的增长。 一、理论基础 1、中心极限定理: 大量相互独立的随机变量,其均值(或者和 阅读全文
posted @ 2018-06-28 17:44 Iris ^ 阅读(18669) 评论(1) 推荐(1) 编辑
摘要: HBase 1、hbase为查询而生,它通过组织机器的内存,提供一个超大的内存hash表,它需要组织自己的数据结构,表在hbase中是物理表,而不是逻辑表,搜索引擎用它来存储索引,以满足实时查询的需求; 2、hbase 是一个基于列存储的非关系型数据库,查询效率高,主要用于查询和展示结果; 3、hb 阅读全文
posted @ 2018-05-11 21:03 Iris ^ 阅读(2952) 评论(0) 推荐(0) 编辑
摘要: 切换到本地项目地址 git init 初始化项目。该步骤会创建一个 .git文件夹是附属于该仓库的工作树。 git add . git commit -am 'initial commit' git remote add origin git@github.com:dfa/sku.git 或者 gi 阅读全文
posted @ 2018-04-18 00:05 Iris ^ 阅读(579) 评论(0) 推荐(0) 编辑
摘要: 一、决策树(类型、节点特征选择的算法原理、优缺点、随机森林算法产生的背景) 1、分类树和回归树 由目标变量是离散的还是连续的来决定的;目标变量是离散的,选择分类树;反之(目标变量是连续的,但自变量可以是分类的或数值的),选择回归树; 树的类型不同,节点分裂的算法和预测的算法也不一样; 分类树会使用基 阅读全文
posted @ 2018-04-12 09:29 Iris ^ 阅读(16057) 评论(0) 推荐(2) 编辑
摘要: 分布式 map-reduce: 一个业务分拆多个子业务,部署在不同的服务器上。 一个业务分拆多个子业务,部署在不同的服务器上。 形象地说,就是不同的机器,虽然做的事情不一样,但是互相独立,也不需要在意先后顺序关系,那么在map阶段,它们就可以并行执行(task);在reduce阶段,把各个结果以某种 阅读全文
posted @ 2018-04-12 09:03 Iris ^ 阅读(869) 评论(0) 推荐(0) 编辑
摘要: 1、map与flatmap函数的区别; map的结果不改变输入每个数据元的结构; flatmap的结果,将每一个输入数据元经过计算后的结果都平铺了,其输出不再是对应每一个输入元数据结构; 2、textFile()函数中,第一个参数是文件路径;第二个可选参数,是控制文件的partitions的参数,默 阅读全文
posted @ 2018-03-16 14:55 Iris ^ 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 一、结构图 二、git命令 1、查看远程分支 git branch -a 跟踪远程分支: git branch -r 2、查看本地分支 git branch 3、创建本地分支 git branch test 把分支推到远程分支 git push origin test 4、切换分支到test(从本地 阅读全文
posted @ 2018-02-07 17:01 Iris ^ 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 1、coalesce 语法: 参数: expression 任何类型的表达式。 返回类型: 返回数据类型优先级最高的 expression 的数据类型。 如果所有表达式都不可为 Null,则结果的类型也不可为 Null。 备注 如果所有参数均为 NULL,则 COALESCE 返回 NULL。 至少 阅读全文
posted @ 2018-01-24 23:04 Iris ^ 阅读(2028) 评论(0) 推荐(0) 编辑