2018 年 9月随笔档案 - 打杂滴

HDFS 原理解析

摘要：源自https://www.cnblogs.com/duanxz/p/3874009.html Namenode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树，文件/目录的元信息和每个文件对应的数据块列表, 接收用户的操作请求。文件包括： ①fsimage:元数据镜像文件。存储某一时段阅读全文

posted @ 2018-09-28 17:22 打杂滴阅读(245) 评论(0) 推荐(0) 编辑 |

sparksql进阶

摘要：scala> val df=spark.read.json("/tmp/pdf1json")df: org.apache.spark.sql.DataFrame = [age: bigint, fv: bigint ... 1 more field] scala> df.show+ + + +|ag 阅读全文

posted @ 2018-09-26 14:46 打杂滴阅读(1488) 评论(0) 推荐(0) 编辑 |

Oozie

摘要：使用Oozie的主要目的是为了管理不同类型的作业在Hadoop系统中处理。作业之间的依赖关系是由有向无环图的形式指定。Oozie 的消费信息以及在工作流中指定负责其执行的顺序正确。这样，用户同时管理保存整个工作流程。此外 Oozie 有指定执行特定工作频率规定。阅读全文

posted @ 2018-09-19 16:04 打杂滴阅读(95) 评论(0) 推荐(0) 编辑 |

模式设计

摘要：按天划分表的模式一天一张表如果用户登录日志 login_20180101,login_20180102 在hive中可以使用按天分区，这样查询效率高，而且比按天分表看起来更清新明了 hive> create table loginfo(userid int,logintime timestamp) 阅读全文

posted @ 2018-09-18 13:49 打杂滴阅读(97) 评论(0) 推荐(0) 编辑 |

hive 索引

摘要：hive 有限的支持索引，不支持主键外键，可以对表添加索引，也可以为某个分区添加索引.维护索引也要额外的存储空间和计算资源。创建索引需要指定索引处理器如 as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' in tab 阅读全文

posted @ 2018-09-18 11:32 打杂滴阅读(406) 评论(0) 推荐(0) 编辑 |

Kylin简介

摘要：Apache Kylin™是由eBay开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。底层存储用的是HBase，数据输入与cube building 阅读全文

posted @ 2018-09-17 13:50 打杂滴阅读(417) 评论(0) 推荐(0) 编辑 |

spark读取文本数据测试

摘要：已知文本有三列，整理数据，并导入mysql scala> import org.apache.spark.sql.SQLContextimport org.apache.spark.sql.SQLContext scala> val gitrdd=sc.textFile("/tmp/git.txt" 阅读全文

posted @ 2018-09-17 11:45 打杂滴阅读(339) 评论(0) 推荐(0) 编辑 |

MySQL配置文件以及服务的开启关闭重启

摘要：linux系统中，配置文件路径一般为/etc/my.cnf [root@host ~]# mysql --help|grep my.cnf order of preference, my.cnf, $MYSQL_TCP_PORT,/etc/mysql/my.cnf /etc/my.cnf ~/.my 阅读全文

posted @ 2018-09-14 17:52 打杂滴阅读(290) 评论(0) 推荐(0) 编辑 |

mycat测试

摘要：mycat 目前最流行的分布式数据库中间插件 mycat能满足数据的大量存储，并能提高查询性能；同样应用程序与数据库解耦，程序只需知道中间件的地址，无需知道底层数据库，数据分布存储，提高读写性能，也可以做高可以用主从备份，主库异常时，备库自动切换为主库。支持MySQL、Oracle、DB2、SQL 阅读全文

posted @ 2018-09-13 14:38 打杂滴阅读(220) 评论(0) 推荐(0) 编辑 |

hive数据倾斜原因以及解决办法

摘要：何谓数据倾斜？数据倾斜指的是，并行处理的数据集中，某一部分（如Spark的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈。表现为整体任务基本完成，但仍有少量子任务的reduce还在运行。数据倾斜的原因: 1.join 一个表较小，但key集中，阅读全文

posted @ 2018-09-11 17:53 打杂滴阅读(2385) 评论(0) 推荐(0) 编辑 |

hive设置参数的方法

摘要：1.修改环境变量 ${HIVE_HOME}/conf/hive-site.xml 2.命令行参数 -e : 执行短命令 -f : 执行文件（适合脚本封装） -S : 安静模式，不显示MR的运行过程 -hivevar : 传参数，专门提供给用户自定义变量。 -hiveconf : 传参数，包括了hi 阅读全文

posted @ 2018-09-11 16:09 打杂滴阅读(542) 评论(0) 推荐(0) 编辑 |

hive文件格式

摘要：hive 默认格式为文本格式，便于文本查看数据，便于与其他工具共享,与二进制文件相比占用较大的空间 hive> create table tb_test(id int,name string) stored as textfile;OKTime taken: 0.968 secondshive> s 阅读全文

posted @ 2018-09-11 13:47 打杂滴阅读(594) 评论(0) 推荐(0) 编辑 |

hive 测试

摘要：hive> use gamedw;OKTime taken: 0.049 secondshive> select current_database();OKgamedwTime taken: 0.485 seconds, Fetched: 1 row(s) scala> hivecon.sql("s 阅读全文

posted @ 2018-09-10 17:27 打杂滴阅读(1741) 评论(0) 推荐(0) 编辑 |

spark sql

摘要：scala> import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql.hive.HiveContext scala> val hivecon=new HiveContext(sc) warning: there 阅读全文

posted @ 2018-09-10 13:19 打杂滴阅读(94) 评论(0) 推荐(0) 编辑 |

hive 函数

摘要：collect_set(x) 列转行函数没有重复，组装多列的数据的结构体collect_list(x) 列转行函数可以有重复，组装多列的数据的结构体concat_ws 拼接函数，用于多列转成同一行字段后，间隔符 UDF(User-Defined-Function) 用户定义（普通）函数，只对阅读全文

posted @ 2018-09-07 16:10 打杂滴阅读(192) 评论(0) 推荐(0) 编辑 |

hive基础知识

摘要：hive的数据模型包括：database、table、partition和bucket。 Hive 的架构设计与运行流程，及其各模块的主要作用，请画出架构图 Hive 支持的文件格式和压缩格式，及其各自的特点 Hive 内外表的区分方法，及内外表的差异点未被external修饰的是内部表（mana 阅读全文

posted @ 2018-09-07 15:46 打杂滴阅读(330) 评论(0) 推荐(0) 编辑 |

DSL

摘要：DSL(Domain Spercific Language) 阅读全文

posted @ 2018-09-06 17:58 打杂滴阅读(133) 评论(0) 推荐(0) 编辑 |

Linux环境变量

摘要：永久环境变量配置： /etc/profile 对所有用户生效(永久的) /etc/bashrc 用户环境变量： ~/.bashrc 阅读全文

posted @ 2018-09-06 17:22 打杂滴阅读(110) 评论(0) 推荐(0) 编辑 |

beeline 连接hive

摘要：HiveServer2是一个能使客户端针对hive执行查询的一种服务，与HiverServer1比较，它能够支持多个客户端的并发请求和授权的；HiveCLI 和 hive –e的方式比较单一，HS2允许远程客户端使用多种语言诸如Java,Python等向Hive提交请求，然后取回结果. $HIVE_ 阅读全文

posted @ 2018-09-06 16:20 打杂滴阅读(3331) 评论(0) 推荐(0) 编辑 |

努力，奋斗

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

09 2018 档案