最近一直在和peformance team的同事做logstash 5.6.2的测试,主要测试两个方面:一方面测试log数据是否能全部被logstash获取与发出去,一方面测试logstash自身的cpu和memory的使用情况。 通过脚本生成log:总共生成10个文件,每个文件1百万行文本, 每行 Read More
posted @ 2017-10-25 23:33 软件心理学工程师 Views(836) Comments(0) Diggs(0)
Elastic公司在收购了Prelert半年之后,终于在Elasticsearch 5中推出了Machine Learning功能。Prelert本身就擅长做时序性数据的异常检测,从这点上讲也比较契合elasticsearch的数据特征。在做了一段时间的PoC之后,发现这个功能的最大作用就是trou Read More
posted @ 2017-10-10 23:40 软件心理学工程师 Views(933) Comments(0) Diggs(0)
在logstash的jvm.options文件末尾添加: -Dcom.sun.management.jmxremote.port=9999 //指定jmx端口-Dcom.sun.management.jmxremote.ssl=false // no ssl-Dcom.sun.management. Read More
posted @ 2017-08-31 21:29 软件心理学工程师 Views(590) Comments(0) Diggs(0)
近期在做kafka metrics. 参考了几个开源的项目,诸如kafka manager, Burrow, kafkaOffsetMonitor,东西都很不错,可惜没有一个是用java编写的,最终自己去仿照kafka源码写了个java版的adminclient,拿到了自己需要的metrics数据。 Read More
posted @ 2016-12-23 22:14 软件心理学工程师 Views(3055) Comments(0) Diggs(0)
YARN:Yet Another Resource Negotiator, Hadoop集群的资源管理器,可以对运行在Hadoop上的MapReduce V2,Spark,Impala等进行内存和CPU的分配。 MapReduce过程分析 input split(输入分片)阶段:在进行Map之前,会 Read More
posted @ 2016-10-04 16:56 软件心理学工程师 Views(259) Comments(0) Diggs(0)
Linux Control Groups(cgroups):在操作系统级别进行资源分配,可通过Cloudera Static Service Pools配置。 YARN调度器配置:对运行在YARN上的应用进行资源配置,比如M/R,implala。可通过Cloudera 动态资源池进行配置。 以下资源 Read More
posted @ 2016-10-03 12:26 软件心理学工程师 Views(630) Comments(0) Diggs(0)
保证Hadoop安全的最有效方法是对cluster进行隔离(isolation,常用方法是把大集群划分若干个小集群)。 Hadoop安全措施的目的是防止好的人不小心做了坏的事,而非防止坏人坏事。 Kerberos: Hadoop采用Kerberos对所有的RPCs进行用户验证。Kerberos并不是 Read More
posted @ 2016-10-01 21:59 软件心理学工程师 Views(178) Comments(0) Diggs(0)
HDFS-NameNode Tuning: dfs.namenode.handler.count: NameNode可开启的thread number,thread为从NameNode到DataNode的RPC请求。Default值为30(CM,Non CM is 10)。推荐设置为集群node数量 Read More
posted @ 2016-09-29 22:53 软件心理学工程师 Views(638) Comments(0) Diggs(0)
涉及到一些关于硬件的东西,我也不是很懂,记录下来有待以后学习。 Hadoop集群一般都是由小到大,刚开始可能只有4到6个节点,随着存储数据的增加,计算量的增大,内存需求的增加,集群慢慢变大。 比如按照数据存储量增大集群,每个星期数据存储3TB数据,HDFS的block备份数为3,则集群就需要9TB的 Read More
posted @ 2016-09-29 21:46 软件心理学工程师 Views(444) Comments(0) Diggs(0)
Services:Haddoop cluster上可以部署的组件,比如HDFS,YARN,HBase等。 Roles:在service配置时,由Cloudera Manager创建。比如NameNode是HDFS service的一个role。 Role Group:对Role的管理,可以将相同类别 Read More
posted @ 2016-09-29 21:07 软件心理学工程师 Views(394) Comments(0) Diggs(0)