摘要: 1.实时推荐系统与相关工作 1.1 原因 实时计算能够及时捕获用户短时兴趣,同时能够快速反馈分发当前系统的用户兴趣内容。大量实践以及发表的文章都显示了推荐系统实时化,对推荐精准度的提升的有效性和必要性。 1.2 腾讯架构与实现 实时推荐相关工作非常多,腾讯和北大合作的两篇SIGMOD文章是比较实际和 阅读全文
posted @ 2017-08-01 14:11 林场 阅读(1687) 评论(0) 推荐(0) 编辑
摘要: 1.缘起 糖豆作为国内最大的广场舞平台,全网的MAU已经超过4000万,每月PGC和UCG生产的视频个数已经超过15万个,每月用户观看的视频也超过100万个。然而之前糖豆APP首页主要还是依赖内容编辑手工推荐来发现内容,每天的推荐量也是几十个而已。明显可见千人一面的内容分发效率比较低下,继而我们于2 阅读全文
posted @ 2017-01-18 11:59 林场 阅读(2024) 评论(2) 推荐(6) 编辑
摘要: 一、什么是事件? 不同于传统的页面路径跳转追踪,事件尝试追踪用户在网站或APP上发生的每一个动作(包括浏览页面) 什么是事件 追踪或记录的用户行为或业务过程(注册账号,登录,观看视频,点赞,评论,关注等等) 事件三要素 操作(action):定义一个操作动作(如点击、拖拽) 参数/属性:参数可以是任 阅读全文
posted @ 2017-02-19 00:04 林场 阅读(3194) 评论(0) 推荐(2) 编辑
摘要: 1、cloudera 数据压缩的一般准则 一般准则 是否压缩数据以及使用何种压缩格式对性能具有重要的影响。在数据压缩上,需要考虑的最重要的两个方面是 MapReduce 作业和存储在 HBase 中的数据。在大多数情况下,每个的原则都类似。 您需要平衡压缩和解压缩数据所需的能力、读写数据所需的磁盘 阅读全文
posted @ 2016-11-30 23:32 林场 阅读(1261) 评论(0) 推荐(0) 编辑
摘要: 这是15年初,在高德负责数据挖掘团队所做的人地挖掘的一份报告,后续经过几版的迭代,应该是累计国内最全的家和公司位置挖掘,已经应用在多个产品线上。过一段时间分享下具体的实现方法。 1. 摘要 人地关系的家和公司挖掘,经过三轮迭代,融合了AMap和开放平台用户数据,挖掘出来3.32亿名用户的常驻地,家和 阅读全文
posted @ 2016-11-25 15:18 林场 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 这是我在2015年高德负责P6晋升评审为团队成员准备的要点,整理下。 1. 数据仓库难点 1.1 分布式OLAP设计与选型 传统BI 友盟,Talking Data 启明星 keylin phoniex ocean base garuda drds impala drill 框架优劣,实现方式,性能 阅读全文
posted @ 2016-09-07 15:32 林场 阅读(2126) 评论(0) 推荐(0) 编辑
摘要: 目前带着一个小组在做全面的用户画像的工作,不少同学都是第一次接触数据挖掘的工作。于是总结了一个较为简单,通用的数据挖掘工作流,也贴出作为自己的工作结果吧。数据挖掘工作流=========#### 1 收集数据收集数据一般是补充外部数据,包括采用爬虫和接口,获取,补充目前数据不足部分。Python s... 阅读全文
posted @ 2014-05-22 12:06 林场 阅读(1752) 评论(0) 推荐(0) 编辑
摘要: 长期以来,我每开个系列,只有兴趣写一篇,很难持之与恒。为了克服这个长久以来的性格弱点,以及梳理工作半年的积累。最近一个月会写两篇关于Mongo在地理大数据方面的实践和应用,一篇关于推荐系统的初期准备过程,一篇用户行为矩阵的可视化。希望能够立言为证,自我监督。1.驱动准备言归正传,前文MongoDB集群部署完毕之后,CRUD就是主要需求。NoSQL与普通关系数据库不同的是,避免采用ORM框架对数据库做操作,这样会带来明显的性能下降[1]。使用原生的Driver是一个较为合理的选择,Mongo支持的语言非常多,包括JS,Java,C,C++,Python,Scala等[2]。如果是单纯的Mongo 阅读全文
posted @ 2013-11-28 17:48 林场 阅读(5572) 评论(4) 推荐(1) 编辑
摘要: 1. 概念MongoDB作为著名的NoSQL,早已非常流行。它的地理应用也非常成熟,被foursquare用于生产环境也已经多时。本文主要记录今年6月份的一个地理产品中,使用MongoDB的过程和遇到的一些问题以及解决方案。我们在原型系统搭建时候,使用了三台机器,搭建MongoDB ReplicationSet 集群,作为地理数据库以使用。2. 集群部署2.1 硬件资源三台操作系统为CentOS 64bit version6.4的服务器,IP地址和域名192.168.2.22 mongodb0.ventlam.com192.168.2.23 mongodb1.ventlam.com192.16 阅读全文
posted @ 2013-09-11 18:38 林场 阅读(3401) 评论(1) 推荐(2) 编辑
摘要: 图论和网络科学都会涉及到大量对图的特性的统计计算,一般将与图数据相关的统计、挖掘、可视化统称为图处理。本系列文章主要希望探讨多方面的图处理理论与方法,包括图的统计性质、表示方法、计算算法、计算模型以及基于图论的数据挖掘等内容。文章只有在必要的情况下区分图和网络的概念,所以文章术语中的图与网络将混用。1.图处理引擎目前通用的图处理软件主要包括两种。一种主要基于遍历算法、实时的图数据库,如Neo4j,OrientDB,DEX, 和InfiniteGraph.另一种则是以图顶点为中心的消息传递批处理的并行引擎,如Hama,Golden Orb,Giraph, 和Pregel.前者基本都基于tinke 阅读全文
posted @ 2013-01-16 01:02 林场 阅读(8362) 评论(0) 推荐(0) 编辑
知识共享许可协议
本作品由VentLam创作,采用知识共享署名-非商业性使用-相同方式共享 2.5 中国大陆许可协议进行许可。