2015 年 9月随笔档案 - 张云临

spark使用Hive表操作

摘要：spark Hive表操作之前很长一段时间是通过hiveServer操作Hive表的,一旦hiveServer宕掉就无法进行操作。比如说一个修改表分区的操作一.使用HiveServer的方式val tblName = "hive_table"def dropPartitions(t... 阅读全文

posted @ 2015-09-28 10:32 张云临阅读(1004) 评论(0) 推荐(0)

部署ganglia3.7

摘要：环境centOS6.6 gmetad节点关闭iptablegmetad和httpd只需要在一台节点安装，gmond需要在每台节点上安装。一.安装epel源sudo wget http://download.fedoraproject.org/pub/epel/6/i386/epel... 阅读全文

posted @ 2015-09-26 20:54 张云临阅读(100) 评论(0) 推荐(0)

集成骨骼动画Spine的几点经验

摘要：最近开始用cantk做些复杂的游戏，其中一个游戏的DragonBones骨骼动画的JSON文件就达600K，导出之后显示各种不正常，可能是太复杂了，有些方面达到了DragonBones的极限。拿到官方的补丁仍然还有些问题，不爽的是新版本有一万多行代码，是老版本的三倍之多。据说骨骼动... 阅读全文

posted @ 2015-09-26 17:32 张云临阅读(398) 评论(0) 推荐(0)

spark读取hdfs数据本地性异常

摘要：在分布式计算中，为了提高计算速度，数据本地性是其中重要的一环。不过有时候它同样也会带来一些问题。一.问题描述在分布式计算中，大多数情况下要做到移动计算而非移动数据，所以数据本地性尤其重要，因此我们往往也是将hdfs和spark部署在相同的节点上，有些人可能会发现即使他已经... 阅读全文

posted @ 2015-09-24 15:05 张云临阅读(363) 评论(0) 推荐(0)

spark join broadcast优化

摘要：在大量数据中对一些字段进行关联。举例ipTable：需要进行关联的几千条ip数据(70k) hist：历史数据（百亿级别）直接join将会对所有数据进行shuffle，需要大量的io操作，相同的key会在同一个partition中进行处理，任务的并发度也收到了限制。使用broad... 阅读全文

posted @ 2015-09-24 00:02 张云临阅读(471) 评论(0) 推荐(0)

spark sql cache

摘要：1.几种缓存数据的方法例如有一张hive表叫做activity1.CACHE TABLE//缓存全表sqlContext.sql("CACHE TABLE activity")//缓存过滤结果sqlContext.sql("CACHE TABLE activity_cached a... 阅读全文

posted @ 2015-09-22 21:58 张云临阅读(1089) 评论(0) 推荐(0)

spark小技巧－mapPartitions

摘要：与map方法类似，map是对rdd中的每一个元素进行操作，而mapPartitions(foreachPartition)则是对rdd中的每个分区的迭代器进行操作。如果在map过程中需要频繁创建额外的对象(例如将rdd中的数据通过jdbc写入数据库,map需要为每个元素创建一个链接... 阅读全文

posted @ 2015-09-21 16:03 张云临阅读(1103) 评论(0) 推荐(0)

python2.7使用ansible

摘要：升级python到2.7后$ ansible报错Traceback (most recent call last): File "/usr/bin/ansible", line 36, in from ansible.runner import RunnerImportE... 阅读全文

posted @ 2015-09-17 16:37 张云临阅读(1006) 评论(0) 推荐(0)

游戏中的路径动画设计与实现

摘要：路径动画让对象沿着指定路径运动，在游戏中用着广泛的应用，比如塔防类游戏就经常使用路径动画。前几天在cantk里实现了路径动画(源码在github上)，路径动画实现起来并不难，实际上写起来挺有意思的，这里和大家分享一下。先说下路径动画的基本需求：1.支持基本的路径类型：直线，弧线，抛... 阅读全文

posted @ 2015-09-12 11:39 张云临阅读(341) 评论(0) 推荐(0)

解决maven编译spark1.5报错问题

摘要：spark1.5发布了，赶紧去下了源码尝鲜git clone git://github.com/apache/spark.git -b branch-1.5输入命令进行编译./make-distribution.sh --tgz -Phadoop-2.4 -Pyarn -Dskip... 阅读全文

posted @ 2015-09-11 13:38 张云临阅读(176) 评论(0) 推荐(0)

使用streaming window函数统计用户不同时间段平均消费金额等指标

摘要：场景现在餐厅老板已经不满足仅仅统计历史用户消费金额总数了，他想知道每个用户半年，每个月，每天，或者一小时消费的总额，来店消费的次数以及平均金额。给出的例子计算的是每5秒,每30秒,每1分钟的用户消费金额，消费次数，平均消费。数据格式{"user":"zhangsan","payme... 阅读全文

posted @ 2015-09-09 11:48 张云临阅读(166) 评论(0) 推荐(0)

spark streaming - kafka updateStateByKey 统计用户消费金额

摘要：场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额，我们可以使用updateStateByKey来实现从kafka接收用户消费json数据，统计每分钟用户的消费情况，并且统计所有时间所有用户的消费情况(使用updateStateByKey来实现)数据格式{"user":"zh... 阅读全文

posted @ 2015-09-08 22:09 张云临阅读(673) 评论(0) 推荐(0)

张云临

09 2015 档案