wang_zai

2019年1月3日

摘要：一、登录mysql数据库 1、连接本地mysql数据库,默认端口为3306 2、通过IP和端口连接远程mysql服务器二、数据库操作语句 1、显示所有数据库 2、创建一个test1234数据库 3、删除test1234数据库三、数据库权限操作 1、创建一个具有root权限，可从任意服务器远程访问阅读全文

posted @ 2019-01-03 20:48 wang_zai 阅读(302) 评论(0) 推荐(0) 编辑

2018年11月16日

Hive表中Partition的创建

摘要：作用：在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，在对应的partition里面去查找就可以，减少查询时间。在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部阅读全文

posted @ 2018-11-16 17:05 wang_zai 阅读(4373) 评论(0) 推荐(0) 编辑

把HDFS上的数据导入到Hive中

摘要： 1. 首先下载测试数据，数据也可以创建 http://files.grouplens.org/datasets/movielens/ml-latest-small.zip 2. 数据类型与字段名称 movies.csv（电影元数据） movieId,title,genres ratings.csv（阅读全文

posted @ 2018-11-16 17:00 wang_zai 阅读(22073) 评论(0) 推荐(0) 编辑

把kafka数据从hbase迁移到hdfs，并按天加载到hive表(hbase与hadoop为不同集群)

摘要：需求：由于我们用的阿里云Hbase，按存储收费，现在需要把kafka的数据直接同步到自己搭建的hadoop集群上，(kafka和hadoop集群在同一个局域网)，然后对接到hive表中去，表按每天做分区一、首先查看kafka最小偏移量（offset）显示三个partition最小offset都为阅读全文

posted @ 2018-11-16 16:38 wang_zai 阅读(1352) 评论(1) 推荐(0) 编辑

2018年11月10日

kafka基本操作

摘要： 1. 启动kafka ./bin/kafka-server-start.sh config/server.properties 2. 创建topic ./bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-fac 阅读全文

posted @ 2018-11-10 18:06 wang_zai 阅读(272) 评论(0) 推荐(0) 编辑

2018年11月8日

实现kylin定时跑当天的任务

摘要：说明：每天自动构建cube，动态在superset里面查看每天曲线变化图 #! /bin/bash ##cubeName cube的名称##endTime 执行build cube的结束时间 (命令传给Kylin的kylinEndTime = realEndTime + (8小时，转化为毫秒)。只阅读全文

posted @ 2018-11-08 19:26 wang_zai 阅读(2703) 评论(0) 推荐(1) 编辑

2018年10月29日

通过Python来操作kylin

摘要：起因：老大要求的数据，无法通过kylin里面的SQL查询到，只能通过调用接口来实现需求第一步，安装依赖的包（py2/py3都支持，我这边用的是py2) 第二步，直接写代码，实现每天日志里面最多的五个用户，通过自修改实现自己的需求阅读全文

posted @ 2018-10-29 12:09 wang_zai 阅读(2244) 评论(0) 推荐(0) 编辑

2018年10月9日

superset可视化不同算法的点击率

摘要： 1. 首先我们通过superset的SQL Editor来编辑语句，语句没有写完整 2. 得到的结果为： 3. 然后点击Visualize，如图所示： 4. 因为要在图中显示不同算法的点击率，需要把datetime设置为日期格式 5. 配置参数因为我的datetime为20181001格式，图中设阅读全文

posted @ 2018-10-09 16:34 wang_zai 阅读(1132) 评论(0) 推荐(0) 编辑

2018年9月23日

flume通过avro对接（汇总数据）

摘要：使用场景：把多台服务器(flume generator)上面的日志汇总到一台或者几台服务器上面（flume collector），然后对接到kafka或者HDFS上 Flume Collector服务端 vim flume-server.properties 启动： Flume Generator 阅读全文

posted @ 2018-09-23 18:13 wang_zai 阅读(5074) 评论(0) 推荐(0) 编辑

Flume同时输出数据到HDFS和kafka

摘要： cd /usr/local/flume/conf vim flume-exec-total.conf 验证： 1. 首先启动HDFS和kafka 2. 创建topic 启动flume以及测试 3. 启动Flume 4. 启动kafka客户端结果如图： Flume服务端： HDFS： Kafka客户阅读全文

posted @ 2018-09-23 17:18 wang_zai 阅读(1461) 评论(0) 推荐(0) 编辑

公告