2015 年 9月 1 日随笔档案 - 农民阿姨

2015年9月1日

摘要：加入一个新的存储节点和删除一个计算节点需要刷新集群状态命令方式1：静态添加datanode，停止namenode方式 1.停止namenode 2.修改slaves文件，并更新到各个节点3.启动namenode 4.执行hadoop balance命令。（此项为balance集群使用，如果只是添加节点，则此步骤不需要） ----------------------------------... 阅读全文

posted @ 2015-09-01 22:27 农民阿姨阅读(896) 评论(0) 推荐(0) 编辑

大数据之pig 命令

摘要： 1.pig与hive的区别 pig和hive比较类似的，都是类sql的语言，底层都是依赖于hadoop 走的mapreduce任务。 pig和hive的区别就是，想要实现一个业务逻辑的话，使用pig需要一步一步操作而使用hive的话一条SQL就可以搞定。如果想在很短时间内获取一个比较复杂的业务逻辑处理结果的话，建议使用pig。如果需要定时执行的一些任务，建议使... 阅读全文

posted @ 2015-09-01 21:39 农民阿姨阅读(3390) 评论(0) 推荐(0) 编辑

MapReduce数据去重策略

摘要：随着收集到数据体积的激增，去重无疑成为众多大数据玩家面对的问题之一。重复数据删除在减少存储、降低网络带宽方面有着显著的优势，并对扩展性有所帮助。在存储架构中，删除重复数据的常用方法包括哈希、二进制比较和增量差分；而本文专注的是使用MapReduce和HDFS对数据进行去重。随着存储数据信息量的飞速增长，越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都是经常使用的存储... 阅读全文

posted @ 2015-09-01 21:12 农民阿姨阅读(673) 评论(0) 推荐(0) 编辑

大数据之pig安装

摘要：大数据之pig安装 1.下载 pig download 2. 解压安装 mapreduce模式安装: 1：设置HADOOP_HOME，如果pig所在节点不是集群中的节点，那就需要把集群中使用的hadoop的安装包拷贝过来一份。 export HADOOP_HOME=/usr/local/hadoop-2.6.0 2：创建一个文件夹，cluster-conf，里面保存的是hadoo... 阅读全文

posted @ 2015-09-01 09:55 农民阿姨阅读(296) 评论(0) 推荐(0) 编辑

农民阿姨-白眉大叔

跟随农民伯伯

公告