09 2017 档案

摘要:将数据到入hive的无分区表,再将无分区表导入hive的有分区表: 查询该hive表的包名和标签列: hbase表需要先建表,才能插入数据 建表: 插入数据: 建表完成 查询语句: 异常: 原因:表中的内容为空,所以插不进去 解决方法:加上条件: 所以插入语句应该为: 最后删除risk_label" 阅读全文
posted @ 2017-09-22 14:34 亲爱的不二999 阅读(2101) 评论(0) 推荐(0) 编辑
摘要:1,什么是Hive? Hive是能够用类SQL的方式操作HDFS里面数据一个数据仓库的框架,这个类SQL我们称之为HQL(Hive Query Language) 2,什么是数据仓库? 存放数据的地方 3,Hive的特征 海量数据的存储 海量数据的查询 不支持事务性操作 Hive是SQL解析引擎,它 阅读全文
posted @ 2017-09-17 11:34 亲爱的不二999 阅读(409) 评论(0) 推荐(0) 编辑
摘要:ETL:抽取(extract)、转换(transform)、加载(load)至目的端的过程; Kettle是ETL工具代表之一,是pentaho中的一个数据整合的一个组件。Kettle里包括多个Job、转换,一个Job可以包含多个转换,转换是kettle执行的最小单位。 1,创建两个CSV文件: 如 阅读全文
posted @ 2017-09-07 17:30 亲爱的不二999 阅读(363) 评论(0) 推荐(0) 编辑
摘要:1,项目图如下: 2, 实现过程 启动HDFS: 启动zookeeper(三台): 启动kafka(三台): 在131中创建access的topic: 查看创建的主题: 131启动flume: 内容: 132中创建kafka的producer: 阅读全文
posted @ 2017-09-01 22:22 亲爱的不二999 阅读(812) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示