上一页 1 ··· 5 6 7 8 9 10 11 12 下一页
摘要: HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。目前实现的副本存放策略只是在这个方向上的第一步。实现这个策略的短期目标是验证它在生产环境下的有效性,观察它的行为,为实现更先进的策略打下测试和研究的基础。 大型HDFS集群系统往往运行在跨越多个机 阅读全文
posted @ 2018-09-14 15:57 BoomOoO 阅读(1634) 评论(0) 推荐(0) 编辑
摘要: 安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。 当集群启动的时候,会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是5,那么在datanode上就应该有5个副本存在,假设只存在3个副本,那么比例就是3/ 阅读全文
posted @ 2018-09-14 15:53 BoomOoO 阅读(374) 评论(0) 推荐(0) 编辑
摘要: 1.client向yarn提交job,首先找ResourceManager分配资源, 2.ResourceManager开启一个Container,在Container中运行一个Application manager 3.Application manager找一台nodemanager启动Appl 阅读全文
posted @ 2018-09-14 15:06 BoomOoO 阅读(269) 评论(0) 推荐(0) 编辑
摘要: 服务功能 ResouceManager: 1、处理客户端的请求 2、启动和监控ApplicationMaster 3、监控nodemanager 4、资源的分配和调度 Nodemanager 1、处理单个节点的资源管理 2、处理来自ResouceManager的命令 3、处理来自Applicatio 阅读全文
posted @ 2018-09-14 14:51 BoomOoO 阅读(3944) 评论(0) 推荐(0) 编辑
摘要: Hive 表类型简述 Hive 表类型简述 Hive 表类型简述 Hive 表类型简述 表类型一、管理表或内部表Table Type: MANAGED_TABLE example: create table Inner(id int,name string,description string) / 阅读全文
posted @ 2018-09-14 10:36 BoomOoO 阅读(763) 评论(0) 推荐(0) 编辑
摘要: Hive表有受控表(内部表)、外部表、分区表、桶表四种。 内部表,就是一般的表,前面讲到的表都是内布标,当表定义被删除的时候,表中的数据随之一并被删除。 外部表,数据存在与否和表的定义互不约束,仅仅只是表对hdfs上相应文件的一个引用,当删除表定义的时候,表中的数据依然存在。 创建外部表,exter 阅读全文
posted @ 2018-09-14 10:35 BoomOoO 阅读(1711) 评论(0) 推荐(0) 编辑
摘要: 1、数据仓库warehouse一般不做更改,只做查询 2、OLTP:联机事务处理,比如:转账 OLAP:联机分析处理,比如:只做查询 3、hadoop的思想来源: GFS (Google的文件系统)即分布式文件系统 4、MapReduce计算模型的来源: Page Rank 即搜索排名 5、HBas 阅读全文
posted @ 2018-09-12 20:07 BoomOoO 阅读(335) 评论(0) 推荐(0) 编辑
摘要: 电商交易项目案例--字段含义--Sdate定义了日期的分类,将每天分别赋予所属的月份、星期、季度等属性,字段分别为日期、年月、年、月、日、周几、第几周、季度、旬、半月;Stock定义了订单表头,字段分别为订单号、交易位置、交易日期;StockDetail文件定义了订单明细,该表和Stock以交易号进 阅读全文
posted @ 2018-09-12 16:18 BoomOoO 阅读(517) 评论(0) 推荐(0) 编辑
摘要: 1 数据概况 本数据为上牌汽车的销售数据,分为乘用车辆和商用车辆。数据包含销售相关数据与汽车具体参数。数据项包括:时间、销售地点、邮政编码、车辆类型、车辆型号、制造厂商名称、排量、油耗、功率、发动机型号、燃料种类、车外廓长宽高、轴距、前后车轮、轮胎规格、轮胎数、载客数、所有权、购买人相关信息等。 2 阅读全文
posted @ 2018-09-12 14:10 BoomOoO 阅读(1497) 评论(0) 推荐(0) 编辑
摘要: 1数据预处理(Linux环境) 搜狗数据的数据格式: 访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL 其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。 1.1数据 阅读全文
posted @ 2018-09-12 14:07 BoomOoO 阅读(919) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 下一页