11 2016 档案

摘要:今天主要来谈谈如何将Spark计算的结果写入到Mysql或者其他的关系型数据库里面。其实方式也很简单,代码如下: 其实是通过foreachPartition遍历RDD的每个分区,并调用普通的Scala方法来写数据库。在运行程序之前需要确保数据库里面存在blog表,可以通过下面语句创建: 然后直接运行 阅读全文
posted @ 2016-11-30 10:46 大葱拌豆腐 阅读(13567) 评论(2) 推荐(1) 编辑
摘要:我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略,这两种分区策略在很多情况下都适合我们的场景。但是有些情况下,Spark内部不能符合咱们的需求,这时候我们就可以自定义分区策略。为此,Spark提供了相应的接口,我们只需要扩展Partition 阅读全文
posted @ 2016-11-28 14:24 大葱拌豆腐 阅读(5269) 评论(0) 推荐(0) 编辑
摘要:在学习spark源码的时候看到spark在1.6之后底层的通信框架变成了akka和netty两种方式,默认的是用netty根据源码的思路用scala写了一个Demo级别的netty通信 先启动NettyServer,然后在启动NettyClient.打印结果 阅读全文
posted @ 2016-11-18 14:31 大葱拌豆腐 阅读(4040) 评论(0) 推荐(0) 编辑
摘要:mysql根据配置文件会限制server接受的数据包大小。 有时候大的插入和更新会被max_allowed_packet 参数限制掉,导致失败。 查看目前配置 show VARIABLES like '%max_allowed_packet%'; 显示的结果为: + + + | Variable_n 阅读全文
posted @ 2016-11-17 09:53 大葱拌豆腐 阅读(731) 评论(0) 推荐(0) 编辑
摘要:1.MySql-Server 出于安全方面考虑只允许本机(localhost, 127.0.0.1)来连接访问. 这对于 Web-Server 与 MySql-Server 都在同一台服务器上的网站架构来说是没有问题的. 但随着网站流量的增加, 后期服务器架构可能会将 Web-Server 与 My 阅读全文
posted @ 2016-11-14 21:16 大葱拌豆腐 阅读(19006) 评论(0) 推荐(1) 编辑
摘要:在Spark中, RDD是有依赖关系的,这种依赖关系有两种类型 窄依赖(Narrow Dependency) 宽依赖(Wide Dependency) 以下图说明RDD的窄依赖和宽依赖 窄依赖 窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用,表现为 一个父RDD的分区对应于一个子RDD的分 阅读全文
posted @ 2016-11-07 09:47 大葱拌豆腐 阅读(2373) 评论(2) 推荐(0) 编辑
摘要:转载:http://blog.csdn.net/ligt0610/article/details/47311771 由于目前每天需要从kafka中消费20亿条左右的消息,集群压力有点大,会导致job不同程度的异常退出。原来使用spark1.1.0版本中的createStream函数,但是在数据处理速 阅读全文
posted @ 2016-11-06 21:06 大葱拌豆腐 阅读(3962) 评论(0) 推荐(0) 编辑
摘要:提交spark应用到yarn集群上的时候在跑一段时间就会出现这个报错: 根据上面的报错原因分析是因为集群资源不够,集群的自我保护机制使hdfs处于安全模式,然后我用”hdfs dfsadmin -safemode leave“命令让集群恢复到可用模式但是在提交到集群时还是会报错同样的错误 然后就查找 阅读全文
posted @ 2016-11-02 09:48 大葱拌豆腐 阅读(6371) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示