摘要:
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源 阅读全文
摘要:
WARD两个链采用的是允许什么包通过,而OUTPUT链采用的是不允许什么包通过. 这样设置还是挺合理的,当然你也可以三个链都DROP,但这样做我认为是没有必要的,而且要写的规则就会增加.但如果你只想要有限的几个规则是,如只做WEB服务器.还是推荐三个链都是DROP. 注:如果你是远程SSH登陆的话, 阅读全文
摘要:
Log4j建议只使用四个级别,优先级从高到低分别是ERROR、WARN、INFO、DEBUG #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=DEBUG #将DAO层log记录到DAOLog,allLog中 log4j.log 阅读全文
摘要:
当Kafka最初创建时,它与Scala生产者和消费者客户端一起运送。随着时间的推移,我们开始意识到这些API的许多限制。例如,我们有一个“高级”消费者API,它支持消费者组并处理故障转移,但不支持许多更复杂的使用场景。我们还有一个“简单”的消费者客户端,提供完全控制,但需要用户自己管理故障转移和错误 阅读全文
摘要:
hive官方并不支持json格式的数据加载,默认支持csv格式文件加载,如何在不依赖外部jar包的情况下实现json数据格式解析,本编博客着重介绍此问题解决方案 首先创建元数据表: 创建视图表: 视图表利用json tuple将json object的数据进行抽取,这样就实现了字段分离。 但是有些日 阅读全文
摘要:
数据接收并行度调优(一) 通过网络接收数据时(比如Kafka、Flume),会将数据反序列化,并存储在Spark的内存中。如果数据接收称为系统的瓶颈,那么可以考虑并行化数据接收。每一个输入DStream都会在某个Worker的Executor上启动一个Receiver,该Receiver接收一个数据 阅读全文
摘要:
kafka有同步(sync)、异步(async)以及oneway这三种发送方式,某些概念上区分也可以分为同步和异步两种,同步和异步的发送方式通过“producer.type”参数指定,而oneway由“request.require.acks”参数指定。 1. sync vs async 在官方文档 阅读全文
摘要:
1、首先生成无密码登陆密钥 一般使用rsa 2、编写shell脚本 3、远程拷贝 4、远程执行命令 阅读全文
摘要:
from:http://blog.csdn.net/dc_726/article/details/9531281 from:http://blog.csdn.net/dc_726/article/details/9531281 花了一天时间熟悉IDEA的各种操作,将各种快捷键都试了一下,感觉很是不错 阅读全文