摘要:
在设置里打开显示所有schemas即可! 阅读全文
摘要:
@ HBase是什么 HBase是基于hadoop的数据库! HBase支持随机写 HBase的读写操作还是借助HDFS完成,要完成随机写,根本上还是需要复合HDFS的特性! HDFS只支持追加写! 随机的操作: Update+Delete 借助 追加写+时间戳(版本号) 只允许客户端查询时返回时间 阅读全文
摘要:
@ 数量关系 batchSize: 每个Source和Sink都可以配置一个batchSize的参数。这个参数代表一次性到channel中put|take 多少个event! batchSize <= transactionCapacity transactionCapacity: putList和 阅读全文
摘要:
@ 异步source的缺点 execsource和异步的source一样,无法在source向channel中放入event故障时(比如channel的容量满了),及时通知客户端,暂停生成数据,容易造成数据丢失 解决方案 需要在发生故障时,及时通知客户端! 如果客户端无法暂停,必须有一个数据的缓存机 阅读全文
摘要:
@ Sqoop的简介 sqoop,即SQL To Hadop,目的是完成关系型数据库导入导出到Hadoop Sqoop的原理是将命令翻译为mapreduce程序执行,MR没有Reduce阶段,只有Map阶段 Sqoop的安装 配置环境 可以在/etc/profile中配置,导出为全局变量或在sqoo 阅读全文
摘要:
netcat source: 类似于netcat的 nc -l 端口号!可以监听某个主机的指定端口收到的消息,将每行消息封装为一个event exec source : 执行一个linux命令,根据命令启动的进程获取进程在标注输出输出的内容,将内容封装为event! 要求进程必须是一个可以持续产生消 阅读全文
摘要:
@ Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 Flume基础架构 Agent Agent是一个JVM进程,它以事件的形式将数据从源头送至目的。 Agent主要有3个部分组成,Source、Ch 阅读全文
摘要:
@ 排名函数 注意:排名函数可以跟Over(),但是不能定义window_clause。在计算名次前,需要先排序! RANK: 允许并列,一旦有并列跳号! ROW_NUMBER: 行号! 连续的,每个号之间差1! DENSE_RANK: 允许并列,一旦有并列不跳号! CUME_DIST: 从排序后的 阅读全文
摘要:
@ 官方文档地址 Hive官网,点我就进 oracle,sqlserver都提供了窗口函数,但是在mysql5.5和5.6都没有提供窗口函数! 窗口函数: 窗口+函数 窗口: 函数运行时计算的数据集的范围 函数: 运行的函数! 仅仅支持以下函数: Windowing functions LEAD ( 阅读全文
摘要:
@ 1.查看函数 函数有库的概念,系统提供的除外,系统提供的函数可以在任意库使用! 查看当前库所有的函数:show functions; 查看函数的使用: desc function 函数名 查看函数的详细使用: desc function extended 函数名 2.函数的分类 按函数的来源: 阅读全文