摘要:
一、登录mysql数据库 1、连接本地mysql数据库,默认端口为3306 2、通过IP和端口连接远程mysql服务器 二、数据库操作语句 1、显示所有数据库 2、创建一个test1234数据库 3、删除test1234数据库 三、数据库权限操作 1、创建一个具有root权限,可从任意服务器远程访问 阅读全文
摘要:
作用: 在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,在对应的partition里面去查找就可以,减少查询时间。 在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部 阅读全文
摘要:
1. 首先下载测试数据,数据也可以创建 http://files.grouplens.org/datasets/movielens/ml-latest-small.zip 2. 数据类型与字段名称 movies.csv(电影元数据) movieId,title,genres ratings.csv( 阅读全文
摘要:
需求:由于我们用的阿里云Hbase,按存储收费,现在需要把kafka的数据直接同步到自己搭建的hadoop集群上,(kafka和hadoop集群在同一个局域网),然后对接到hive表中去,表按每天做分区 一、首先查看kafka最小偏移量(offset) 显示三个partition最小offset都为 阅读全文
摘要:
1. 启动kafka ./bin/kafka-server-start.sh config/server.properties 2. 创建topic ./bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-fac 阅读全文
摘要:
说明: 每天自动构建cube,动态在superset里面查看每天曲线变化图 #! /bin/bash ##cubeName cube的名称##endTime 执行build cube的结束时间 (命令传给Kylin的kylinEndTime = realEndTime + (8小时,转化为毫秒)。只 阅读全文
摘要:
起因: 老大要求的数据,无法通过kylin里面的SQL查询到,只能通过调用接口来实现需求 第一步,安装依赖的包(py2/py3都支持,我这边用的是py2) 第二步,直接写代码,实现每天日志里面最多的五个用户,通过自修改实现自己的需求 阅读全文
摘要:
1. 首先我们通过superset的SQL Editor来编辑语句,语句没有写完整 2. 得到的结果为: 3. 然后点击Visualize,如图所示: 4. 因为要在图中显示不同算法的点击率,需要把datetime设置为日期格式 5. 配置参数 因为我的datetime为20181001格式,图中设 阅读全文
摘要:
使用场景: 把多台服务器(flume generator)上面的日志汇总到一台或者几台服务器上面(flume collector),然后对接到kafka或者HDFS上 Flume Collector服务端 vim flume-server.properties 启动: Flume Generator 阅读全文
摘要:
cd /usr/local/flume/conf vim flume-exec-total.conf 验证: 1. 首先启动HDFS和kafka 2. 创建topic 启动flume以及测试 3. 启动Flume 4. 启动kafka客户端 结果如图: Flume服务端: HDFS: Kafka客户 阅读全文