随笔分类 -  大数据

摘要:what is Zookeeper? 1,开源的分布式的,为分布式应用提供协调服务的Apache项目2,提供一个简单原语集合,以便于分布式应用可以在它之上构建更高层次的同步服务3,设计非常易于编程,它使用的是类似于文件系统那样的树形数据结构4,目的就是将分布式服务不再需要由于协作冲突而另外实现的协作 阅读全文
posted @ 2019-05-09 10:36 Chris,Cai 阅读(920) 评论(0) 推荐(0) 编辑
摘要:root 用户操作 1,rpm -qa|grep ntp 查看机器是否安装ntp 2,vi /etc/ntp.conf 修改: #restrict 192.168.1.0 mask 255.255.255.0 nomodify notraprestrict 192.168.178.0 mask 25 阅读全文
posted @ 2019-05-06 22:06 Chris,Cai 阅读(443) 评论(0) 推荐(0) 编辑
摘要:集群搭建完毕之后,需要对集群进行基准测试 第一方面:基本测试 服务启动,是否可用,简单的应用 *hdfs 读写操作 bin/hdfs dfs -mkdir - p /user/chris/tmp/conf bin/hdfs dfs -put etc/hadoop/xxx.xml /user /chr 阅读全文
posted @ 2019-05-06 15:56 Chris,Cai 阅读(617) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-04-28 12:48 Chris,Cai 阅读(140) 评论(0) 推荐(0) 编辑
摘要:MapReduce 里面的shuffle:描述者数据从map task 输出到reduce task 输入的这段过程 Shuffle 过程: 首先,map 输出的<key,value > 会放在内存中,内存有一定的大小,超过之后,会将内存里的东西溢写(spill) 到磁盘(disk)中 。在从内存溢 阅读全文
posted @ 2019-04-26 11:40 Chris,Cai 阅读(392) 评论(0) 推荐(0) 编辑
摘要:将文件split 文件1: 分割结果: hello world <0, "hello world"> this is wordcount <12,"this is wordcount"> 文件2: hello china <0,"hello china"> hello IT <12,"hello I 阅读全文
posted @ 2019-04-25 11:17 Chris,Cai 阅读(450) 评论(0) 推荐(0) 编辑
摘要:启动Hdfs 系统的时候,其中的一个阶段“”安全模式 发生阶段:NameNode启动中,已经读取了fsimage 并且生成了edits 文件,在等待dataNode 向nameNode 发送block report 的过程中 退出:当datanodes blocks / totoal blocks 阅读全文
posted @ 2019-04-23 15:47 Chris,Cai 阅读(384) 评论(0) 推荐(0) 编辑
摘要:maven Denpendency 阅读全文
posted @ 2019-04-23 14:02 Chris,Cai 阅读(1954) 评论(0) 推荐(0) 编辑
摘要:HDFS 系统架构图 NameNode 是主节点,存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。NameNode将这些信息加载到内存并进行拼装,就成为了一个完整的元数据信息 NameNode的启动过程: 第一次启动 阅读全文
posted @ 2019-04-22 14:19 Chris,Cai 阅读(402) 评论(0) 推荐(0) 编辑
摘要:HDFS: NameNode: DataNodes: slaves指定的 SecondaryNameNode Yarn ResourceManager NodeManagers slaves指定的运行的主机名 MapReduce: $ sbin/stop-dfs.sh $ sbin/stop-yar 阅读全文
posted @ 2019-04-19 15:47 Chris,Cai 阅读(234) 评论(0) 推荐(0) 编辑
摘要:配置文件: 默认的配置文件:相对应的jar 中 core-default.xml hdfs-default.xml yarn-default.xml mapred-default.xml 自定义配置文件$HADOOP_HOME/etc/hadoop/ core.site.xml hdfs-site. 阅读全文
posted @ 2019-04-19 13:18 Chris,Cai 阅读(806) 评论(0) 推荐(0) 编辑
摘要:1,Local(Standalone) Mode 单机模式 2,Pseudo-Distributed Operation 伪分布式 格式化元数据,进入到安装目录下 bin/hdfs namenode -format 启动namenode,所有的命令都在sbin下,通过ls sbin/ 可以查看 sb 阅读全文
posted @ 2019-04-13 15:47 Chris,Cai 阅读(2167) 评论(0) 推荐(0) 编辑
摘要:hadoop 一个开源的,稳定的,可扩展的,分布式的计算框架 实现单一的服务器到成千上万机器之间共同处理数据的一个可扩展性框架 Hadoop 项目主要包含以下四个模块 Hadoop Common:为其他Hadoop 模块提供基础性设施 Hadoop Distributed System(HDFS): 阅读全文
posted @ 2019-04-10 14:12 Chris,Cai 阅读(114) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示