07 2016 档案
摘要:写hive SQL查询, 需要从导入的参数, 自动累加日期。 从而实现一个自动的,多个日期的统计过程 R语言的日期运算超级简单。 > test<-Sys.Date() > test [1] "2016-07-29" > test = test+1 > test [1] "2016-07-30" 如果
阅读全文
摘要:昨天写完R脚本 没测试就发到博客里, 结果实际运行发现很慢,运行时间在2小时以上, 查看spark控制台, 大量时间消耗在count上, 产生的stage多大70多个 。 分析原因。 1 select *可以优化, 2 join操作可以放倒hive sql里的尽量放到hive sql里 这两个优化,
阅读全文
摘要:上周我们这个10人的小团队开发的推荐拉新系统, 日拉新人数已接近4万人。过去几个月这个系统从无到有, 拉新从日增几千稳步增长到日增几万, 同事们几个月来,每天工作13个小时以上,洗澡时间都没有, 有时就住在公司, 回家怕吵到家人,只能睡客厅地板, 周日也不能保证休息。 大家的全力投入,不懈努力才能有
阅读全文
摘要:intersect except是spark提供的集合差集运算, 但是要求参与运算的两个dataframe,有相同的data Schema。 如果我想从 集合1(attribute1, attribute2, attribute3)求 attribute2 出现在另一个集合2(attribute2,
阅读全文
摘要:到 官网下载scala tar包 http://www.scala-lang.org/download/ mac Finder里双击解压。 改名成scala 进命令行, mv ~/Downloads/scala /usr/local/share sudo vim /etc/profile expor
阅读全文
摘要:为了更方便的查询并产生报表, 需要使用shell脚本调用spark-sql spark/bin/spark-sql --master spark://host:7077 -f ${SQL_FILE} > ${OUT_FILE}
阅读全文
摘要:今天接手一个重复性工作, 需要手工把产品运营们在excel里写的活动规则, 插入数据库表中。为了减少出错, 提高效率。 再加上最近刚刚学R语言, 就用R练练手, 自动生成mysql的sql语句。 一次性提交。 刚才就是判断一个值是否是整数折腾了一小会儿。后来发现R判断这个很简单。 就是as.inte
阅读全文