问道大数据 - 博客园

2016年9月

摘要：答案：两个坑，性能坑和线程坑 DStream是抽象类，它把连续的数据流拆成很多的小RDD数据块，这叫做“微批次”， spark的流式处理，都是“微批次处理”。 DStream内部实现上有批次处理时间间隔，滑动窗口等机制来保证每个微批次的时间间隔里，数据流以RDD的形式发送给spark做进一阅读全文

posted @ 2016-09-08 15:00 问道大数据阅读(20963) 评论(0) 推荐(0) 编辑

Scala学习笔记2 （带着问题学习，逐渐扩展。理解吃透scala.）

摘要：问题：把文本字符串"[1, 2, 3, 4, 5]" 转换成一个数组。答案： val x = "[1, 2, 3, 4, 5]" val y =x slice(1, x.length-1) replace(",","") split(" ") var y1= x slice(1, x.leng 阅读全文

posted @ 2016-09-07 16:53 问道大数据阅读(1367) 评论(0) 推荐(0) 编辑

2016年8月

如何用机器学习强化市场营销活动。

摘要：以下是我自己翻译的，错误难免，请见谅。英文原文，地址https://econsultancy.com/blog/65275-how-to-use-machine-learning-to-enhance-your-marketing-campaigns/ 机器学习看上去和市场人员没啥关系，这玩意阅读全文

posted @ 2016-08-30 12:06 问道大数据阅读(2246) 评论(1) 推荐(2) 编辑

大数据统计脚本，分城市订单统计

摘要： date_parameter <- "2016-08-01"start_date<-as.Date(date_parameter)dayCount_parameter = 1array = strsplit(as.character(start_date),"-")year = as.charact 阅读全文

posted @ 2016-08-12 11:57 问道大数据阅读(357) 评论(0) 推荐(0) 编辑

宇宙常量与增长黑客。

摘要：最近看过一个科教记录片，讲宇宙大爆炸的物理学理论，其中一个有关宇宙常量的观点引起了我的兴趣。科学家无法解释宇宙常量是怎么产生的，现在的假说是宇宙常量是在宇宙大爆炸伊始就决定了的，也是一个随机产物。对于我们所处的宇宙来讲，这个宇宙常量就是一个常量，但是很可能世界上存在多个宇宙，每个宇宙的阅读全文

posted @ 2016-08-11 10:57 问道大数据阅读(408) 评论(0) 推荐(0) 编辑

病毒传播效果的衡量公式

摘要：以下公式是用来衡量病毒传播效果的。我不认为有实际的操作意义，但是里面的几个关键指标K， CT还是有很强的解释意义的。 Custs(0)是种子用户数量， Custs(t)是过了一个时间周期后，增加的新用户人数。t则是周期，可以选择天，月年。确定T周期后，通过大数据统计，计算K值和ct值。阅读全文

posted @ 2016-08-09 16:53 问道大数据阅读(12245) 评论(0) 推荐(1) 编辑

浅谈对增长黑客的理解

摘要： Growth hacker是2010硅谷提出来的，线上有很多相关的文章，国内也有范冰出的一本同名书籍，知乎上也有不少讨论。我在这里只说一下，自己对growth hacking的肤浅理解。首先是字面上的理解， growth hacking。 growth是目标， hacking是手段和方法阅读全文

posted @ 2016-08-08 15:39 问道大数据阅读(1282) 评论(0) 推荐(0) 编辑

大数据分析，数据挖掘，机器学习，找到产品改进的爆点。

摘要：为了避免不必要的麻烦。一些数据讲的不太清楚，关键看爆点的思路。通过大数据统计分析，我发现可以用一个线性公式完美的拟合一个用户转化环节。并依据此公式对近期没有发生的数据做出预测。这就是大数据的魅力所在吧。依据以上发现，我觉得至少我们这个产品，套用互联网的漏斗模型，在每两个环节之间的转化模阅读全文

posted @ 2016-08-08 12:12 问道大数据阅读(572) 评论(1) 推荐(0) 编辑

2016年7月

R语言的日期运算

摘要：写hive SQL查询，需要从导入的参数，自动累加日期。从而实现一个自动的，多个日期的统计过程 R语言的日期运算超级简单。 > test<-Sys.Date() > test [1] "2016-07-29" > test = test+1 > test [1] "2016-07-30" 如果阅读全文

posted @ 2016-07-29 13:53 问道大数据阅读(577) 评论(0) 推荐(0) 编辑

SPARK 数据统计程序性能优化。

摘要：昨天写完R脚本没测试就发到博客里，结果实际运行发现很慢，运行时间在2小时以上，查看spark控制台，大量时间消耗在count上，产生的stage多大70多个。分析原因。 1 select *可以优化， 2 join操作可以放倒hive sql里的尽量放到hive sql里这两个优化，阅读全文

posted @ 2016-07-29 11:52 问道大数据阅读(529) 评论(0) 推荐(0) 编辑

公告