随笔分类 -  大数据生态组件使用

摘要:1. "永久设置MySQL字符编码,解决jdbc数据导入由于存在中文字符出错问题(sqoop)" 2. hdfs数据表的字段和MySQL的字段对应, 注意字段类型和字符串长度问题 3. jdbc连接不要使用localhost 4. 输入数据字段分隔符, 输出数据字段分隔符 阅读全文
posted @ 2019-10-31 09:31 会走的树 阅读(3277) 评论(0) 推荐(1) 编辑
摘要:Hive自定义函数包括三种UDF、UDAF、UDTF UDF(User Defined Function) 一进一出 UDAF(User Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/min UDTF(User Defined Table Ge 阅读全文
posted @ 2019-10-23 16:16 会走的树 阅读(3411) 评论(0) 推荐(0) 编辑
摘要:创建kafka topic 注: partitions指定topic分区数,replication factor指定topic每个分区的副本数 partitions分区数: partitions :分区数,控制topic将分片成多少个log。可以显示指定,如果不指定则会使用broker(server 阅读全文
posted @ 2019-08-27 18:53 会走的树 阅读(158) 评论(0) 推荐(0) 编辑
摘要:说明 MySQL – HDFS 导入整个数据表 (默认使用MySQL的3306端口) 导入查询结果 MySQL – Hive 实现原理:https://www.cnblogs.com/xuyou551/p/7998846.html 导入 整张数据表 到hive 导入数据表的 指定字段 到hive M 阅读全文
posted @ 2019-08-27 18:53 会走的树 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 数据库操作 内部表 外部表 分区表 创建分区表 导入数据到分区表中 修改分区路径 删除分区 分区表的其他操作:https://www.cnblogs.com/one way/p/7550795.html 创建相同表结构的表 查看表信息 表操作 视图 查询 导入数据 执行脚本 shell使用Hiv 阅读全文
posted @ 2019-08-27 18:52 会走的树 阅读(260) 评论(0) 推荐(0) 编辑
摘要:Hbase常用命令:https://www.cnblogs.com/shadowalker/p/7350484.html 阅读全文
posted @ 2019-08-27 18:49 会走的树 阅读(75) 评论(0) 推荐(0) 编辑
摘要: flume架构介绍 flume之所以这么神奇,是源于它自身的一个设计,这个设计就是agent,agent本身是一个 "Java" 进程,运行在日志收集节点—所谓日志收集节点就是服务器节点。 agent里面包含3个核心的组件:source— channel—– sink,类似生产者、仓库、消费者的 阅读全文
posted @ 2019-08-27 18:48 会走的树 阅读(154) 评论(0) 推荐(0) 编辑
摘要:数据表的导出和导入: https://blog.csdn.net/wangmx1993328/article/details/82663617 阅读全文
posted @ 2019-08-25 22:21 会走的树 阅读(94) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示