摘要: 加入一个新的存储节点和删除一个计算节点需要刷新集群状态命令 方式1:静态添加datanode,停止namenode方式 1.停止namenode 2.修改slaves文件,并更新到各个节点3.启动namenode 4.执行hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要) ----------------------------------... 阅读全文
posted @ 2015-09-01 22:27 农民阿姨 阅读(896) 评论(0) 推荐(0) 编辑
摘要: 1.pig与hive的区别 pig和hive比较类似的,都是类sql的语言,底层都是依赖于hadoop 走的mapreduce任务。 pig和hive的区别就是,想要实现一个业务逻辑的话,使用pig需要一步一步操作 而使用hive的话一条SQL就可以搞定。 如果想在很短时间内获取一个比较复杂的业务逻辑处理结果的话,建议使用pig。 如果需要定时执行的一些任务,建议使... 阅读全文
posted @ 2015-09-01 21:39 农民阿姨 阅读(3390) 评论(0) 推荐(0) 编辑
摘要: 随着收集到数据体积的激增,去重无疑成为众多大数据玩家面对的问题之一。重复数据删除在减少存储、降低网络带宽方面有着显著的优势,并对扩展性有所帮助。在存储架构中,删除重复数据的常用方法包括哈希、二进制比较和增量差分;而本文专注的是使用MapReduce和HDFS对数据进行去重。 随着存储数据信息量的飞速增长,越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都是经常使用的存储... 阅读全文
posted @ 2015-09-01 21:12 农民阿姨 阅读(673) 评论(0) 推荐(0) 编辑
摘要: 大数据之pig安装 1.下载 pig download 2. 解压安装 mapreduce模式安装: 1:设置HADOOP_HOME,如果pig所在节点不是集群中的节点,那就需要把集群中使用的hadoop的安装包拷贝过来一份。 export HADOOP_HOME=/usr/local/hadoop-2.6.0 2:创建一个文件夹,cluster-conf,里面保存的是hadoo... 阅读全文
posted @ 2015-09-01 09:55 农民阿姨 阅读(296) 评论(0) 推荐(0) 编辑