摘要: 推荐算法相关 [TOC] 推荐系统介绍 What:分类目录、搜索引擎、推荐系统 Why:需要在信息过载、用户需求不明确的背景下,留住用户和内容生产者,实现商业目标 评估指标 准确性 学界:RMSE、MAE、Recall、Precision 业界 头条:阅读 阅读时长 分享/评论 关注/付费 快手:播 阅读全文
posted @ 2019-02-12 17:57 justcodeit 阅读(4583) 评论(0) 推荐(1) 编辑
摘要: 基于Spark的GBDT + LR模型实现 [TOC] 测试数据来源http://archive.ics.uci.edu/ml/machine learning databases/adult/ 该模型利用Spark mllib的GradientBoostedTrees作为GBDT部分,因为ml模块 阅读全文
posted @ 2019-02-12 17:43 justcodeit 阅读(7581) 评论(0) 推荐(0) 编辑
摘要: 实验介绍 数据采用Criteo Display Ads。这个数据一共11G,有13个integer features,26个categorical features。 Spark 由于数据比较大,且只在一个txt文件,处理前用 对数据进行切分。 连续型数据利用log进行变换,因为从实时训练的角度上来 阅读全文
posted @ 2019-01-31 18:24 justcodeit 阅读(2054) 评论(1) 推荐(0) 编辑
摘要: 神经网络 [TOC] perceptron(了解) perceptron:最简单的ANN结构,它是一个linear threshold unit(LTU),接收wx,经过step func f,转为输出。step func通常是heaviside(返回0或1)或者sign(返回 1、0或1) 训练实 阅读全文
posted @ 2019-01-31 18:21 justcodeit 阅读(641) 评论(0) 推荐(0) 编辑
摘要: 机器学习理论 [TOC] 概念 Discriminative and Generative Learning 前者:寻找分类面,拟合条件概率,即x = y,然后减少损失函数。例如线性回归、决策树、SVM、KNN 后者:例如HMM、Naive贝叶斯、GMM、LDA 学习过程:寻找数据分布,拟合联合概率 阅读全文
posted @ 2019-01-19 22:50 justcodeit 阅读(802) 评论(0) 推荐(0) 编辑
摘要: 本项目主要关注实现,数据分析、特征工程涉及较少,而且数据量较大,并没有进行多次调参。 另外,由于数据的分类极其不平衡,本项目尝试使用SMOTE增加偏少类的样本数量。 RangeIndex: 328553 entries, 0 to 328552 Data columns (total 21 colu 阅读全文
posted @ 2019-01-19 22:50 justcodeit 阅读(791) 评论(0) 推荐(0) 编辑
摘要: [TOC] 基本语法 基本语法只列举与Java不一样的。 运算符 and, or而非 &&, ||,另外还有not /相当于java的double除法, 相当于java的Math.pow(a, b) 0、空字符串、列表、元组等都可以返回False 位运算符:~相当于java的 输出格式 数据类型 s 阅读全文
posted @ 2019-01-19 22:44 justcodeit 阅读(277) 评论(0) 推荐(0) 编辑
摘要: [TOC] 本文是原项目的一次重写。主要是用DataFrame代替原来的RDD,并在一些实现上进行优化,还有就是实时流计算改用Flink进行实现。 项目分为用户访问session模块、页面转跳转化率统计、热门商品离线统计和广告流量实时统计四部分组成。 业务需求 用户访问session 该模块主要是对 阅读全文
posted @ 2018-12-30 18:03 justcodeit 阅读(4476) 评论(0) 推荐(3) 编辑
摘要: [TOC] 项目概要 需求 手机应用日志 定期离线分析手机应用新增用户、活跃用户、沉默用户、启动次数、版本分布和留存用户等业务指标。 工作流程 1. 手机APP启动时,上报启动日志、错误日志、页面日志、事件日志、使用时长日志等信息到日志收集服务器。 2. 日志收集服务器将收集到的日志信息发送给kaf 阅读全文
posted @ 2018-12-27 22:28 justcodeit 阅读(903) 评论(0) 推荐(0) 编辑
摘要: leetcode:75颜色分类(3way)、215数组中的第K个最大元素(normal) 3way normal 注意这里用for循环!!! java public int findKthLargest(int[] nums, int k) { // 左右指针,调整k int left = 0, r 阅读全文
posted @ 2018-12-25 23:27 justcodeit 阅读(845) 评论(0) 推荐(0) 编辑