2016 年 7月随笔档案 - 问道大数据

R语言的日期运算

摘要：写hive SQL查询，需要从导入的参数，自动累加日期。从而实现一个自动的，多个日期的统计过程 R语言的日期运算超级简单。 > test<-Sys.Date() > test [1] "2016-07-29" > test = test+1 > test [1] "2016-07-30" 如果阅读全文

posted @ 2016-07-29 13:53 问道大数据阅读(577) 评论(0) 推荐(0) 编辑

SPARK 数据统计程序性能优化。

摘要：昨天写完R脚本没测试就发到博客里，结果实际运行发现很慢，运行时间在2小时以上，查看spark控制台，大量时间消耗在count上，产生的stage多大70多个。分析原因。 1 select *可以优化， 2 join操作可以放倒hive sql里的尽量放到hive sql里这两个优化，阅读全文

posted @ 2016-07-29 11:52 问道大数据阅读(531) 评论(0) 推荐(0) 编辑

用sparkR，分析上亿条订单数据的脚本。

摘要：上周我们这个10人的小团队开发的推荐拉新系统，日拉新人数已接近4万人。过去几个月这个系统从无到有，拉新从日增几千稳步增长到日增几万，同事们几个月来，每天工作13个小时以上，洗澡时间都没有，有时就住在公司，回家怕吵到家人，只能睡客厅地板，周日也不能保证休息。大家的全力投入，不懈努力才能有阅读全文

posted @ 2016-07-28 21:29 问道大数据阅读(758) 评论(1) 推荐(0) 编辑

spark 集合交集差集运算

摘要：intersect except是spark提供的集合差集运算，但是要求参与运算的两个dataframe，有相同的data Schema。如果我想从集合1（attribute1, attribute2, attribute3）求 attribute2 出现在另一个集合2(attribute2, 阅读全文

posted @ 2016-07-28 21:26 问道大数据阅读(7394) 评论(0) 推荐(0) 编辑

Scala学习笔记1（安装）

摘要：到官网下载scala tar包 http://www.scala-lang.org/download/ mac Finder里双击解压。改名成scala 进命令行， mv ~/Downloads/scala /usr/local/share sudo vim /etc/profile expor 阅读全文

posted @ 2016-07-23 12:10 问道大数据阅读(140) 评论(0) 推荐(0) 编辑

shell脚本调用spark-sql

摘要：为了更方便的查询并产生报表，需要使用shell脚本调用spark-sql spark/bin/spark-sql --master spark://host:7077 -f ${SQL_FILE} > ${OUT_FILE} 阅读全文

posted @ 2016-07-19 21:24 问道大数据阅读(3407) 评论(0) 推荐(0) 编辑

R语言中判断是否是整数。以及读写excel

摘要：今天接手一个重复性工作，需要手工把产品运营们在excel里写的活动规则，插入数据库表中。为了减少出错，提高效率。再加上最近刚刚学R语言，就用R练练手，自动生成mysql的sql语句。一次性提交。刚才就是判断一个值是否是整数折腾了一小会儿。后来发现R判断这个很简单。就是as.inte 阅读全文

posted @ 2016-07-19 17:50 问道大数据阅读(5362) 评论(0) 推荐(0) 编辑

07 2016 档案

公告