数据可视化之Zeppelin

前言

数据可视化这块不是项目的重点,不过为了让大家能有一个更加直观的感受,我们可以选择一些现成的数据可视化工具实现。
我们前面分析过,想要查询hive中的数据可以使用hue,不过hue无法自动生成图表。

所以我们可以考虑使用Zeppelin,Zeppelin是一个Apache的孵化项目.一个基于web的笔记本,支持交互式数据分析。你可以用SQL、Scala等做出数据驱动的、交互、协作的文档。(类似于ipython notebook,可以直接在浏览器中写代码、笔记并共享)

针对一些复杂的图表,可以选择定制开发,使用echarts等组件实现

安装部署

下载

注意:不要使用Zeppelin0.8.2版本,这个版本有bug,无法使用图形展现数据。这里我们使用zeppelin-0.9.0-preview1这个版本

下载地址,安装包比较大,1.5G左右,这里我们使用阿里云镜像。

修改配置

mv zeppelin-env.sh.template zeppelin-env.sh
mv zeppelin-site.xml.template zeppelin-site.xml
vim zeppelin-site.xml

将默认的127.0.0.1改为0.0.0.0 否则默认情况下只能在本机访问zeppline,监听端口默认8080,如果已经被使用了,修改为其他端口,这里我们修改为9090。

<property>
 <name>zeppelin.server.addr</name>
 <value>0.0.0.0</value>
 <description>Server binding address</description>
</property>
<property>
 <name>zeppelin.server.port</name>
 <value>9090</value>
</property>

增加Hive依赖jar包

由于我们需要使用Zepplien连接hive,它里面默认没有集成Hive的依赖jar包,所以最简单的方式就是将Hive的lib目录中的所有jar包全复制到Zeppline中的interpreter/jdbc目录中

启动

bin/zeppelin-daemon.sh start

停止

bin/zeppelin-daemon.sh stop

界面参数配置

Zepplin启动之后可以通过9090端口进行访问 http://bigdata01:9090/

image

在使用之前需要先配置hive的基本信息

image

image

修改这四项的内容即可,这里的内容其实就是我们之前学习hive的jdbc操作时指定的参数

参数                   值                         解释
default.url           jdbc:hive2://ip:10000      里面的ip是启动hiveserver2服务的机器ip
default.user          root
default.password      any                        注意:密码随便填即可
default.driver        org.apache.hive.jdbc.HiveDriver

注意:需要在服务器上启动hiveserver2服务,否则在zeppline中连不上hive

bin/hiveserver2

Zepplin的使用

创建一个note,类似于工作台的概念

image

此时就可以在里面写SQL了。

如果想以图形的形式展示结果,点击对应图形的图标即可。

posted @ 2023-06-03 08:53  strongmore  阅读(149)  评论(0编辑  收藏  举报