05 2018 档案

摘要:一.数据仓库定义 数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统关系数据库面向应用相对应。 二.数据仓库与传统数据的区别 数据仓库是用于分析的数据库,传统的关系型数据库是面向业务的,为具体的业务提供 阅读全文

posted @ 2018-05-31 15:48 打杂滴 阅读(195) 评论(0) 推荐(0) 编辑 |

摘要:crond 是linux用来定期执行程序的命令。当安装完成操作系统之后,默认便会启动此任务调度命令。crond命令每分锺会定期检查是否有要执行的工作,如果有要执行的工作便会自动执行该工作。可以用以下的方法启动、关闭这个服务: [root@host ~]# /sbin/service crond st 阅读全文

posted @ 2018-05-29 15:44 打杂滴 阅读(166) 评论(0) 推荐(0) 编辑 |

摘要:下载 wget http://mirror.bit.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 解压 tar -zxf sqoop-1.99.7-bin-hadoop200.tar.gz 将mysql-connecto 阅读全文

posted @ 2018-05-29 10:51 打杂滴 阅读(458) 评论(0) 推荐(0) 编辑 |

摘要:Sqoop是一款开源的工具,主要用于在Hadoop和传统的数据库(mysql、postgresql等)进行数据的传递,可以将一个关系型数据库(例如:MySQL、Oracle、Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Sqoop中一大亮点 阅读全文

posted @ 2018-05-29 10:21 打杂滴 阅读(390) 评论(0) 推荐(0) 编辑 |

摘要:查看现有link sqoop:000> show link+ + + +| Name | Connector Name | Enabled |+ + + +| mysqllink | generic-jdbc-connector | true || mysql2 | generic-jdbc-con 阅读全文

posted @ 2018-05-28 14:14 打杂滴 阅读(519) 评论(0) 推荐(0) 编辑 |

摘要:1.下载 wget http://mirror.bit.edu.cn/apache/sqoop/1.99.7/sqoop-1.99.7-bin-hadoop200.tar.gz 2.解压 tar -zxvf sqoop-1.99.7-bin-hadoop200.tar.gz -C /root/sqo 阅读全文

posted @ 2018-05-25 10:05 打杂滴 阅读(275) 评论(0) 推荐(0) 编辑 |

摘要:在HBase中,namespace命名空间指对一组表的逻辑分组,类似于数据库,便于对表在业务上划分 HBase系统默认定义了两个缺省的namespace hbase:系统内建表,包括namespace和meta表 default:用户建表时未指定namespace的表都创建在此 hbase:系统内建 阅读全文

posted @ 2018-05-22 17:43 打杂滴 阅读(1286) 评论(0) 推荐(0) 编辑 |

摘要:给用户分配对每个表的操作权限,有RWXCA五种,对应READ, WRITE, EXEC, CREATE, ADMIN hbase(main):222:0> help "grant" Grant users specific rights. Syntax: grant <user or @group> 阅读全文

posted @ 2018-05-22 17:30 打杂滴 阅读(4675) 评论(0) 推荐(0) 编辑 |

摘要:HBase包含可以与HBase进行通信的Shell。 HBase使用Hadoop文件系统来存储数据。它拥有一个主服务器和区域服务器。数据存储将在区域(表)的形式。这些区域被分割并存储在区域服务器。 主服务器管理这些区域服务器,所有这些任务发生在HDFS。 通用命令 status: 提供HBase的状 阅读全文

posted @ 2018-05-22 15:09 打杂滴 阅读(196) 评论(0) 推荐(0) 编辑 |

摘要:TTL(Time To Live)生存期 hbase表默认保存一个版本的数据 hbase(main):123:0> create 't_name','st1'Created table t_nameTook 1.3807 seconds => Hbase::Table - t_namehbase(m 阅读全文

posted @ 2018-05-22 15:07 打杂滴 阅读(739) 评论(0) 推荐(0) 编辑 |

摘要:在2.0版本之前,使用Spark必须先创建SparkConf和SparkContext catalog:目录 Spark2.0中引入了SparkSession的概念,SparkConf、SparkContext 和 SQLContext 都已经被封装在 SparkSession 当中,并且可以通过 阅读全文

posted @ 2018-05-21 10:12 打杂滴 阅读(381) 评论(0) 推荐(0) 编辑 |

摘要:Hive整合HBase后的好处: 通过Hive把数据加载到HBase中,数据源可以是文件也可以是Hive中的表。 通过整合,让HBase支持JOIN、GROUP等SQL查询语法。 通过整合,不仅可完成HBase的数据实时查询,也可以使用Hive查询HBase中的数据完成复杂的数据分析。 使用Hive 阅读全文

posted @ 2018-05-17 16:59 打杂滴 阅读(177) 评论(0) 推荐(0) 编辑 |

摘要:来源 https://www.cnblogs.com/duanxz/p/4516283.html HBase是一个分布式的架构,除去底层存储的HDFS外,HBase本身从功能上可以分为三块:Zookeeper群、HMaster群和HRegionServer群。 Zookeeper群:HBase集群中 阅读全文

posted @ 2018-05-17 14:12 打杂滴 阅读(292) 评论(0) 推荐(0) 编辑 |

摘要:HBase —— Hadoop Database的简称 ,hbase 是分布式,稀疏的,持久化的,多维有序映射,它基于行键rowkey,列键column key,时间戳timestamp建立索引。它是一个随机访问的存储和检索数据的平台。hbase 可以存储结构化,半结构化的数据 Hadoop使用分布 阅读全文

posted @ 2018-05-15 15:46 打杂滴 阅读(595) 评论(0) 推荐(0) 编辑 |

摘要:Hcatalog是apache开源的对于表和底层数据管理统一服务平台 阅读全文

posted @ 2018-05-11 18:01 打杂滴 阅读(106) 评论(0) 推荐(0) 编辑 |

摘要:DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。可以将数据拷贝到另个一集群,也可以将另一个集群的数据拷贝到本集群。 阅读全文

posted @ 2018-05-11 15:51 打杂滴 阅读(107) 评论(0) 推荐(0) 编辑 |

摘要:windows常用远程工具有 SecureCRT, Putty, SSH Secure Shell等 SSH服务支持一种安全认证机制,即密钥认证。所谓的密钥认证,实际上是使用一对加密字符串,一个称为公钥(public key), 任何人都可以看到其内容,用于加密;另一个称为密钥(private ke 阅读全文

posted @ 2018-05-08 16:29 打杂滴 阅读(104) 评论(0) 推荐(0) 编辑 |

摘要:HiveQL是一种SQL语言,但缺少udpate和insert类型操作时的行,列或者查询级别的锁支持,hadoop文件通常是一次写入(支持有限的文件追加功能),hadoop和hive都是多用户系统,锁和协调是非常有用的。所有锁必须有单独的系统进行协调。 hive包含了一个使用 apache zook 阅读全文

posted @ 2018-05-04 17:42 打杂滴 阅读(519) 评论(0) 推荐(0) 编辑 |

摘要: 阅读全文

posted @ 2018-05-04 17:30 打杂滴 阅读(84) 评论(0) 推荐(0) 编辑 |

摘要:Hive具有一个可选的组件叫HiveServer或HiveThrift,其允许通过指定端口访问Hive。Thrift是一种软件架构,用于跨语言的服务开发。 hive最常用的访问方式是采用cli访问,不便于编程的方式访问。 阅读全文

posted @ 2018-05-04 15:26 打杂滴 阅读(318) 评论(0) 推荐(0) 编辑 |

随笔 - 224, 文章 - 0, 评论 - 1, 阅读 - 12万

Copyright © 2025 打杂滴
Powered by .NET 9.0 on Kubernetes

点击右上角即可分享
微信分享提示