幻想小说网 酷文学 深夜书屋 叮当小说网 找小说网 无限小说网 红尘小说网

09 2015 档案

spark使用Hive表操作
摘要:spark Hive表操作之前很长一段时间是通过hiveServer操作Hive表的,一旦hiveServer宕掉就无法进行操作。比如说一个修改表分区的操作一.使用HiveServer的方式val tblName = "hive_table"def dropPartitions(t... 阅读全文

posted @ 2015-09-28 10:32 张云临 阅读(1004) 评论(0) 推荐(0)

部署ganglia3.7
摘要:环境centOS6.6 gmetad节点关闭iptablegmetad和httpd只需要在一台节点安装,gmond需要在每台节点上安装。一.安装epel源sudo wget http://download.fedoraproject.org/pub/epel/6/i386/epel... 阅读全文

posted @ 2015-09-26 20:54 张云临 阅读(100) 评论(0) 推荐(0)

集成骨骼动画Spine的几点经验
摘要:最近开始用cantk做些复杂的游戏,其中一个游戏的DragonBones骨骼动画的JSON文件就达600K,导出之后显示各种不正常,可能是太复杂了,有些方面达到了DragonBones的极限。拿到官方的补丁仍然还有些问题,不爽的是新版本有一万多行代码,是老版本的三倍之多。据说骨骼动... 阅读全文

posted @ 2015-09-26 17:32 张云临 阅读(398) 评论(0) 推荐(0)

spark读取hdfs数据本地性异常
摘要:在分布式计算中,为了提高计算速度,数据本地性是其中重要的一环。 不过有时候它同样也会带来一些问题。一.问题描述在分布式计算中,大多数情况下要做到移动计算而非移动数据,所以数据本地性尤其重要,因此我们往往也是将hdfs和spark部署在相同的节点上,有些人可能会发现即使他已经... 阅读全文

posted @ 2015-09-24 15:05 张云临 阅读(363) 评论(0) 推荐(0)

spark join broadcast优化
摘要:在大量数据中对一些字段进行关联。举例ipTable:需要进行关联的几千条ip数据(70k) hist:历史数据(百亿级别) 直接join将会对所有数据进行shuffle,需要大量的io操作,相同的key会在同一个partition中进行处理,任务的并发度也收到了限制。使用broad... 阅读全文

posted @ 2015-09-24 00:02 张云临 阅读(471) 评论(0) 推荐(0)

spark sql cache
摘要:1.几种缓存数据的方法例如有一张hive表叫做activity1.CACHE TABLE//缓存全表sqlContext.sql("CACHE TABLE activity")//缓存过滤结果sqlContext.sql("CACHE TABLE activity_cached a... 阅读全文

posted @ 2015-09-22 21:58 张云临 阅读(1089) 评论(0) 推荐(0)

spark小技巧-mapPartitions
摘要:与map方法类似,map是对rdd中的每一个元素进行操作,而mapPartitions(foreachPartition)则是对rdd中的每个分区的迭代器进行操作。如果在map过程中需要频繁创建额外的对象(例如将rdd中的数据通过jdbc写入数据库,map需要为每个元素创建一个链接... 阅读全文

posted @ 2015-09-21 16:03 张云临 阅读(1103) 评论(0) 推荐(0)

python2.7使用ansible
摘要:升级python到2.7后$ ansible报错Traceback (most recent call last): File "/usr/bin/ansible", line 36, in from ansible.runner import RunnerImportE... 阅读全文

posted @ 2015-09-17 16:37 张云临 阅读(1006) 评论(0) 推荐(0)

游戏中的路径动画设计与实现
摘要:路径动画让对象沿着指定路径运动,在游戏中用着广泛的应用,比如塔防类游戏就经常使用路径动画。前几天在cantk里实现了路径动画(源码在github上),路径动画实现起来并不难,实际上写起来挺有意思的,这里和大家分享一下。先说下路径动画的基本需求:1.支持基本的路径类型:直线,弧线,抛... 阅读全文

posted @ 2015-09-12 11:39 张云临 阅读(341) 评论(0) 推荐(0)

解决maven编译spark1.5报错问题
摘要:spark1.5发布了,赶紧去下了源码尝鲜git clone git://github.com/apache/spark.git -b branch-1.5输入命令进行编译./make-distribution.sh --tgz -Phadoop-2.4 -Pyarn -Dskip... 阅读全文

posted @ 2015-09-11 13:38 张云临 阅读(176) 评论(0) 推荐(0)

使用streaming window函数统计用户不同时间段平均消费金额等指标
摘要:场景现在餐厅老板已经不满足仅仅统计历史用户消费金额总数了,他想知道每个用户半年,每个月,每天,或者一小时消费的总额,来店消费的次数以及平均金额。给出的例子计算的是每5秒,每30秒,每1分钟的用户消费金额,消费次数,平均消费。数据格式{"user":"zhangsan","payme... 阅读全文

posted @ 2015-09-09 11:48 张云临 阅读(166) 评论(0) 推荐(0)

spark streaming - kafka updateStateByKey 统计用户消费金额
摘要:场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户的消费情况(使用updateStateByKey来实现)数据格式{"user":"zh... 阅读全文

posted @ 2015-09-08 22:09 张云临 阅读(673) 评论(0) 推荐(0)

导航