摘要:
在平常的工作中,经常会有一些马虎的数据分析师,接到业务方提到的需求后,大致扫一遍然后就吭叽吭叽做起来,最后出的分析结果报告交给业务方后没多久就打回来,说不是他想要结果,仔细一讨论发现双方的指标定义不一致,从而导致了一顿白忙活,造成“十动仍拒”的下场。所以指标定义的清晰性是开始分析工作的前提。OK,本文要讲述的也是有关指标定义,是由talking data推出的移动游戏运营数据分析指标白皮书,目的是统一移动游戏数据指标的定义,主要涉及宏观层面的定义,下面分模块来看一,用户获取日新登用户数(daily new users)定义:每日注册并登陆游戏的用户数解决的问题:1)渠道贡献新用户份额 (... 阅读全文
摘要:
大数据这个名词是被炒得越来越火了,各种大数据技术层出不穷,做数据挖掘的也跟着火了一把,呵呵,现今机器学习算法常见的并行实现方式:MPI,Map-Reduce计算框架,GPU方面,graphlab的图并行,Spark计算框架,本文讲讲一些机器学习算法的map-reduce并行策略,尽管有些算法确实不适合map-reduce计算,但是掌握一些并行思想策略总归不是件坏事,大家如果对某个算法有更好的并行策略,也请多多指教,欢迎大家交流,OK,下面先从一个最基本的均值、方差的并行开始。均值、方差的map-reduce 一堆数字的均值、方差公式,相信都很清楚,具体怎么设计map跟reduce函数... 阅读全文