最近计划看看elasticsearch的源码,首先得把local debug环境搞定。 下载源码。因为公司产线是5.6.5,所以就下载了5.6.5的代码。 源码编译。先进入到/elasticsearch/core目录,因为IDE是idea,所以用gradle idea编译core目录。然后进入到/e Read More
posted @ 2017-12-31 21:50 软件心理学工程师 Views(823) Comments(0) Diggs(0) Edit
整个2017年都在搞大数据平台,完全远离了机器学习,甚至都不记得写过类似ETL的job。 从数据到平台,从业务处理到基础服务。 Metrics的收集,报警,生成报表。Data pipeline的准确性,性能。Job的提交,资源分配。分布式组件的部署,运维。 同时也参与了一个portal的开发,管理分 Read More
posted @ 2017-12-17 19:49 软件心理学工程师 Views(154) Comments(0) Diggs(0) Edit
基于kafka-2.11-0.9.0.0 。 a.kill掉kafka进程,然后在server.properties里面加上delete.topic.enable=true。重启kafka。集群中的每台机器都这样操作,one by one。 b.在一个kafka broker上执行:/opt/kaf Read More
posted @ 2017-11-01 23:24 软件心理学工程师 Views(1028) Comments(0) Diggs(0) Edit
最近一直在和peformance team的同事做logstash 5.6.2的测试,主要测试两个方面:一方面测试log数据是否能全部被logstash获取与发出去,一方面测试logstash自身的cpu和memory的使用情况。 通过脚本生成log:总共生成10个文件,每个文件1百万行文本, 每行 Read More
posted @ 2017-10-25 23:33 软件心理学工程师 Views(805) Comments(0) Diggs(0) Edit
Elastic公司在收购了Prelert半年之后,终于在Elasticsearch 5中推出了Machine Learning功能。Prelert本身就擅长做时序性数据的异常检测,从这点上讲也比较契合elasticsearch的数据特征。在做了一段时间的PoC之后,发现这个功能的最大作用就是trou Read More
posted @ 2017-10-10 23:40 软件心理学工程师 Views(894) Comments(0) Diggs(0) Edit
在logstash的jvm.options文件末尾添加: -Dcom.sun.management.jmxremote.port=9999 //指定jmx端口-Dcom.sun.management.jmxremote.ssl=false // no ssl-Dcom.sun.management. Read More
posted @ 2017-08-31 21:29 软件心理学工程师 Views(567) Comments(0) Diggs(0) Edit
近期在做kafka metrics. 参考了几个开源的项目,诸如kafka manager, Burrow, kafkaOffsetMonitor,东西都很不错,可惜没有一个是用java编写的,最终自己去仿照kafka源码写了个java版的adminclient,拿到了自己需要的metrics数据。 Read More
posted @ 2016-12-23 22:14 软件心理学工程师 Views(3020) Comments(0) Diggs(0) Edit
YARN:Yet Another Resource Negotiator, Hadoop集群的资源管理器,可以对运行在Hadoop上的MapReduce V2,Spark,Impala等进行内存和CPU的分配。 MapReduce过程分析 input split(输入分片)阶段:在进行Map之前,会 Read More
posted @ 2016-10-04 16:56 软件心理学工程师 Views(246) Comments(0) Diggs(0) Edit
Linux Control Groups(cgroups):在操作系统级别进行资源分配,可通过Cloudera Static Service Pools配置。 YARN调度器配置:对运行在YARN上的应用进行资源配置,比如M/R,implala。可通过Cloudera 动态资源池进行配置。 以下资源 Read More
posted @ 2016-10-03 12:26 软件心理学工程师 Views(613) Comments(0) Diggs(0) Edit
保证Hadoop安全的最有效方法是对cluster进行隔离(isolation,常用方法是把大集群划分若干个小集群)。 Hadoop安全措施的目的是防止好的人不小心做了坏的事,而非防止坏人坏事。 Kerberos: Hadoop采用Kerberos对所有的RPCs进行用户验证。Kerberos并不是 Read More
posted @ 2016-10-01 21:59 软件心理学工程师 Views(159) Comments(0) Diggs(0) Edit