随笔分类 - 大数据1不太懂的时候
刚学的时候
摘要:1、编程模型 DataSource:外部数据源 Spout:接受外部数据源的组件,将外部数据源转化成Storm内部的数据,以Tuple为基本的传输单元下发给Bolt Bolt:接受Spout发送的数据,或上游的bolt的发送的数据。根据业务逻辑进行处理。发送给下一个Bolt或者是存储到某种介质上。介
阅读全文
摘要:Ctrl+Shift + Enter,语句完成“!”,否定完成,输入表达式时按 “!”键Ctrl+E,最近的文件Ctrl+Shift+E,最近更改的文件Shift+Click,可以关闭文件Ctrl+[ OR ],可以跑到大括号的开头与结尾Ctrl+F12,可以显示当前文件的结构Ctrl+F7,可以查
阅读全文
摘要:1.Hadoop中有哪些组件? Hadoop=HDFS+Yarn+MapReduce+Hive+Hbase+... 1).HDFS:分布式文件存储系统 主:namenode,secondarynamenode 从:datanode 2).Yarn:分布式资源管理系统,用于同一管理集群中的资源(内存等
阅读全文
摘要:4.LVS和HAProxy相比,它的缺点是什么? 之前,的确是用LVS进行过MySQL集群的负载均衡,对HAProxy也有过了解,但是将这两者放在眼前进行比较,还真没试着了解过。面试中出现了这么一题,面试官给予的答案是LVS的配置相当繁琐,后来查找了相关资料,对这两种负载均衡方案有了更进一步的了解。
阅读全文
摘要:hadoop相关试题MapTask并行机度是由什么决定的? 由切片数量决定的。MR是干什么的? MR将用户编写的业务逻辑代码和自带的默认组件结合起来组成一个完整的分布式应用程序放到hadoop集群上运行。MR的实例进程: driver(mr的job提交客户端) MRAppMaster MapTask
阅读全文
摘要:第1部分 选择题 1.1 Hadoop选择题 1.1.1 Hdfs 1. 下面哪个程序负责 HDFS 数据存储? a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2. HDfS 中的 block 默认保存几份?
阅读全文
摘要:一、.hdfs写文件的步骤 答案: (1)client向NameNode申请上传…/xxx.txt文件 (2)NN向client响应可以上传文件 (3)Client向NameNode申请DataNode (4)NN向Client返回DN1,DN2,DN3 (5)Client向DN1,DN2,DN3申
阅读全文
摘要:kafka的message包括哪些信息 一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc32之间多
阅读全文
摘要:面试题总结: 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。 [优点] 支持超大文件 超大文件在这里指的是几百M,几百GB,甚至几TB大小的文件。 检
阅读全文
摘要:1.kafka集群的规模,消费速度是多少。 答:一般中小型公司是10个节点,每秒20M左右。 2.hdfs上传文件的流程。 答:这里描述的 是一个256M的文件上传过程 ① 由客户端 向 NameNode节点节点 发出请求 ②NameNode 向Client返回可以可以存数据的 DataNode 这
阅读全文