保证Hadoop安全的最有效方法是对cluster进行隔离(isolation,常用方法是把大集群划分若干个小集群)。 Hadoop安全措施的目的是防止好的人不小心做了坏的事,而非防止坏人坏事。 Kerberos: Hadoop采用Kerberos对所有的RPCs进行用户验证。Kerberos并不是 Read More
HDFS-NameNode Tuning: dfs.namenode.handler.count: NameNode可开启的thread number,thread为从NameNode到DataNode的RPC请求。Default值为30(CM,Non CM is 10)。推荐设置为集群node数量 Read More
涉及到一些关于硬件的东西,我也不是很懂,记录下来有待以后学习。 Hadoop集群一般都是由小到大,刚开始可能只有4到6个节点,随着存储数据的增加,计算量的增大,内存需求的增加,集群慢慢变大。 比如按照数据存储量增大集群,每个星期数据存储3TB数据,HDFS的block备份数为3,则集群就需要9TB的 Read More
Services:Haddoop cluster上可以部署的组件,比如HDFS,YARN,HBase等。 Roles:在service配置时,由Cloudera Manager创建。比如NameNode是HDFS service的一个role。 Role Group:对Role的管理,可以将相同类别 Read More
存入HDFS的文件会按块(block)划分,默认每块128MB。默认1个block还有2个备份。备份增加了数据的可靠性和提高计算效率(数据本地化)。 HDFS部署可选择不支持HA,也可选择支持HA。 NameNode内存中有metadata,metadata里主要记录的信息包括:file locat Read More
cloudera分为两个部分:CDH和CM。CDH是Cloudera Distribution Hadoop的简称,顾名思义,就是cloudera公司发布的Hadoop版本,封装了Apache Hadoop,提供Hadoop所有的服务,包括HDFS,YARN,MapReduce以及各种相关的comp Read More
最近重新看了《机器学习实战》第八章:预测数值型数据:回归。发现了一个以前没有重视的问题,规则化(regularization),通过网上各种查找资料,发现规则化对数据的特征选择,防止回归模型过拟合都有非常大的帮助。 简单的讲,规则化就是给损失函数(cost function)多项式再加上一项,使得训 Read More
前阵子做了一些IT opreation analysis的research,从产线上取了一些J2EE server运行状态的数据(CPU,Menory...),打算通过训练JVM的数据来建立分类模型,用于server状态的分类。这个过程中发现最难的地方就是构建训练数据集,训练数据必须要有明确的typ Read More
在使用机器学习算法进行分类预测的过程中,往往最困难的部分在于如何提高模型预测的准确率。有时候当我们辛辛苦苦准备了数据集,进行了繁琐的数据预处理,编码,提交到集群完成了模型训练之后,忽然发现预测的准确率低到让人无语,笔者曾经遇到过进行0,1分类,结果训练出来的模型准确率是51.8%,这和人工随机分类几 Read More
日常工作中会对centos进行操作,总是会有一些常用的命令记不住,特开一贴,记录那些命令,学而时习之。RPM操作类命令:查看RPM安装路径:1.rpm -qa|grep Memcached2.rpm -ql Memcached-1.4.13_02-6.x86_64yum显示源中可安装的mysql文件... Read More