上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 18 下一页
摘要: http协议 http是什么 HTTP(超文本传输协议)是一个基于请求与响应模式的、无状态的(所以浏览器要依靠cookie、token等保持登录状态)、应用层的协议。 HTTP协议是一个基于TCP协议之上的请求-响应协议。 http协议的url解析 http://apis.juhe.cn/mobil 阅读全文
posted @ 2020-08-26 23:39 Whatever_It_Takes 阅读(156) 评论(0) 推荐(0) 编辑
摘要: hdfs小文件解决方案总结 小文件的问题弊端 HDFS上每个文件都要在NameNode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用NameNode的内存空间,另一方面就是索引文件过大使得索引速度变慢。 小文件的解决方案 小文件的 阅读全文
posted @ 2020-08-26 23:34 Whatever_It_Takes 阅读(311) 评论(0) 推荐(0) 编辑
摘要: hadoop的企业级调优 HDFS参数调优hdfs-site.xml (1) 设置参数dfs.namenode.handler.count dfs.namenode.handler.count=20 * log2(Cluster Size) //该参数用来调整namenode处理客户端的线程数,根据 阅读全文
posted @ 2020-08-26 23:32 Whatever_It_Takes 阅读(262) 评论(0) 推荐(0) 编辑
摘要: yarn的任务调度器 资源调度器是YARN最核心的组件之一,是一个插拔式的服务组件,负责整个集群资源的管理和分配。YARN提供了三种可用的资源调度器:FIFO、Capacity Scheduler、Fair Scheduler。 先进先出调度器(FIFO) FIFO按照先到先得的原则,进行分配资源。 阅读全文
posted @ 2020-08-26 23:30 Whatever_It_Takes 阅读(1862) 评论(0) 推荐(1) 编辑
摘要: yarn工作机制 大致过程 MR程序提交到客户端所在的节点。 YarnRunner向ResourceManager申请一个Application。 RM将该应用程序的资源路径返回给YarnRunner。 该程序将运行所需资源提交到HDFS上。 程序资源提交完毕后,申请运行mrAppMaster。 R 阅读全文
posted @ 2020-08-26 23:27 Whatever_It_Takes 阅读(312) 评论(0) 推荐(0) 编辑
摘要: yarn介绍 yarn(Yet Another Resource Negotiator)是一个新的资源管理器,hadoop2.0的时候开始引入yarn,引入yarn是为了分离hadoop的资源管理和计算组件。yarn是一个通用的管理框架,在yarn上不仅仅可以运行Mapreduce,还可以支持其它的 阅读全文
posted @ 2020-08-26 23:25 Whatever_It_Takes 阅读(276) 评论(0) 推荐(0) 编辑
摘要: Mapreduce当中的join操作 案例需求 订单数据表t_order: id date pid amount 1001 20150710 P0001 2 1002 20150710 P0002 3 1002 20150710 P0003 3 1003 20150812 P0003 1 商品信息表 阅读全文
posted @ 2020-08-26 23:22 Whatever_It_Takes 阅读(329) 评论(0) 推荐(0) 编辑
摘要: MapReduce当中的计数器 计数器 计数器是收集作业统计信息的有效手段之一,用于质量控制或应用级统计。计数器还可辅助诊断系统故障。如果需要将日志信息传输到map 或reduce 任务, 更好的方法通常是看能否用一个计数器值来记录某一特定事件的发生。对于大型分布式作业而言,使用计数器更为方便。除了 阅读全文
posted @ 2020-08-26 23:20 Whatever_It_Takes 阅读(253) 评论(0) 推荐(0) 编辑
摘要: shuffle当中的数据压缩 为什么要压缩? 在shuffle阶段,可以看到数据通过大量的拷贝,从map阶段输出的数据,都要通过网络拷贝,发送到reduce阶段,这一过程中,涉及到大量的网络IO,如果数据能够进行压缩,那么数据的发送量就会少得多,而且也不会占用那么多本地磁盘空间。 压缩步骤大致处于m 阅读全文
posted @ 2020-08-26 23:13 Whatever_It_Takes 阅读(259) 评论(0) 推荐(0) 编辑
摘要: MapTask工作机制(重点) Read阶段--》Map阶段--》Collect阶段--》spill阶段--》Combine阶段 Read阶段 有个文件hello.txt大小为200M,客户端首先获取待处理文件信息,然后根据参数配置,形成一个任务分配的规划。 再调用submit()方法,把要执行的j 阅读全文
posted @ 2020-08-26 23:10 Whatever_It_Takes 阅读(616) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 18 下一页