摘要: 简介 Java介于编译型语言和解释型语言之间。编译型语言如C、C++,代码是直接编译成机器码执行,但是不同的平台(x86、ARM等)CPU的指令集不同,因此,需要编译出每一种平台的对应机器码。解释型语言如Python、Ruby没有这个问题,可以由解释器直接加载源码然后运行,代价是运行效率太低。而Ja 阅读全文
posted @ 2020-08-11 23:26 rjxuu 阅读(108) 评论(0) 推荐(0) 编辑
摘要: SELECT DISTINCT country FROM Websites; SELECT TOP 50 PERCENT a.count FROM Websites AS a #别名 WHERE alexa > 15 AND alexa BETWEEN 1 AND 20 AND name IN(‘g 阅读全文
posted @ 2020-08-11 23:24 rjxuu 阅读(61) 评论(0) 推荐(0) 编辑
摘要: Factorization machine,因子分解机,把所有特征进行高阶组合,减少人工参与特征组合的工作, 在 LR 的基础上考虑交叉项,某些特征经过关联之后,与 label 的相关性会提高,比如球类运动配件和男性这两个特征。所以 FM 解决的问题是1.特征稀疏 2.特征组合 一般线性模型无法学习 阅读全文
posted @ 2020-07-15 22:27 rjxuu 阅读(377) 评论(0) 推荐(0) 编辑
摘要: LR是线性模型,学习能力有限,此时特征工程尤其重要。现有的特征工程主要集中在寻找有区分度的特征、特征组合,但未必会有效果提升。 GBDT的算法特点可以用来发掘有区分度的特征、特征组合,减少特征工程中的人力成本。相当于将决策树的路径作为LR的输入特征,对于树的每条路径,都是通过最大增益分割出来的有区分 阅读全文
posted @ 2020-07-15 22:23 rjxuu 阅读(190) 评论(0) 推荐(0) 编辑
摘要: 基于离线训练的推荐系统架构 离线训练指使用历史一段时间(一周或几周)的数据进行训练,模型迭代的周期较长(一般以小时为单位),模型拟合的是用户的中长期兴趣。基于离线训练的推荐系统常用的算法有LR、GBDT、FM 一个典型的基于离线训练的推荐系统由数据上报、离线训练、在线存储、实时计算、AB测试几个模块 阅读全文
posted @ 2020-07-13 22:35 rjxuu 阅读(526) 评论(0) 推荐(0) 编辑
摘要: 推荐系统中不得不说的双塔模型 阅读全文
posted @ 2020-07-13 22:30 rjxuu 阅读(554) 评论(0) 推荐(0) 编辑
摘要: 详细教程https://www.jianshu.com/p/e57a4a2cf077 分布式的版本控制系统,Distributed Version Control Systems (DVCS)会把代码仓库完整地镜像下来,这样任何一个服务器发生故障,都可以用其他的仓库来修复。 CVCS 每个版本存放的 阅读全文
posted @ 2020-07-06 22:43 rjxuu 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 节点(Node)表示数学操作,多维数据数组,也就是张量(tensor),由线(edges)联系,表示节点之间的输入输出关系 计算图computational graph是TF中很重要的一个概念,其是由一系列节点(nodes)组成的图模型,每个节点对应的是TF的一个算子(operation)。每个算子 阅读全文
posted @ 2020-07-06 21:17 rjxuu 阅读(110) 评论(0) 推荐(0) 编辑
摘要: 转自https://zhuanlan.zhihu.com/p/34436165 Spark 运算比 Hadoop 的 MapReduce 框架快的原因是因为 Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁盘中,第二次 Mapredue 运算时在从磁盘中读取数据, 阅读全文
posted @ 2020-07-06 10:28 rjxuu 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 数组 字符串 链表 树 哈希 栈 队列 图 概率 二分 排序 动规 回溯 双指针 贪心算法 Boyer-Moore算法 拓扑排序 partition 二进制 大数据 其他 阅读全文
posted @ 2020-07-05 10:52 rjxuu 阅读(110) 评论(0) 推荐(0) 编辑