随笔分类 -  大数据

摘要:上一篇文章介绍了python连接hive的过程,通过地址+端口号访问到hive并对hive中的数据进行操作,这一篇文章介绍一下怎么通过windows本地pyspark+本地部署好的spark+远程虚拟机的hive,完成本地pyspark对hive的访问。一.环境介绍(1)关于pyspark这个是之前 阅读全文
posted @ 2022-12-22 13:33 脑袋凉凉 阅读(796) 评论(3) 推荐(0) 编辑
摘要:步骤:启动metastore启动hiveserver2使用beeline进行连接测试,查看地址等是否能够成功连接(确认无误可以跳过)使用python连接hive(粗暴的文件配置以及完整操作见文末)一.启动hiveserver21.配置mode为http,端口为10001(默认)<property> 阅读全文
posted @ 2022-12-21 18:24 脑袋凉凉 阅读(589) 评论(0) 推荐(0) 编辑
摘要:题目:1、 创建员工信息数据文件employess.txt,数据文件中包含内容如下(姓名、年龄、薪资、):Lilith Hardy,30,6000,50,Finance DepartmentByron Green,36,5000,25,Personnel DepartmentYvette Ward, 阅读全文
posted @ 2022-12-05 16:48 脑袋凉凉 阅读(184) 评论(0) 推荐(0) 编辑
摘要:一.数据库操作1.显示当前所有数据库Show databases;2.创建数据库studyCREATE DATABASE IF NOT EXISTS study COMMENT "This is study database"LOCATION '/user/hive_db/create_db/';3 阅读全文
posted @ 2022-12-04 20:23 脑袋凉凉 阅读(91) 评论(0) 推荐(0) 编辑
摘要:Hadoop集群部署:https://www.cnblogs.com/Studywith/p/16948866.html一.Hive的三种部署模式1.嵌入模式 使用内嵌的Derby数据库存储元数据,是Hive最简单的部署方式。嵌入模式下的Hive不支持多会话连接,不适合生产环境,只适合测试环境。 2 阅读全文
posted @ 2022-12-04 16:54 脑袋凉凉 阅读(522) 评论(0) 推荐(0) 编辑
摘要:Linux环境搭建:https://www.cnblogs.com/Studywith/p/16946297.html免密连接:https://www.cnblogs.com/Studywith/p/16946310.htmlJDK和ZooKeeper部署:https://www.cnblogs.c 阅读全文
posted @ 2022-12-03 21:53 脑袋凉凉 阅读(322) 评论(0) 推荐(0) 编辑
摘要:Linux环境搭建:https://www.cnblogs.com/Studywith/p/16946297.html免密连接:https://www.cnblogs.com/Studywith/p/16946310.html在完成了Linux虚拟机的基础配置后,接下来进行JDK和ZooKeeper 阅读全文
posted @ 2022-12-03 19:33 脑袋凉凉 阅读(172) 评论(0) 推荐(0) 编辑
摘要:一.主机IP映射就是将虚拟机的IP地址和主机名进行映射,这样就可以直接通过root@主机名的方式找到对应的虚拟机(三台虚拟机都要建立三条映射关系)vim /etc/hosts192.168.121.130 node01 192.168.121.131 node02 192.168.121.132 n 阅读全文
posted @ 2022-12-03 06:23 脑袋凉凉 阅读(105) 评论(0) 推荐(0) 编辑
摘要:一.安装三台Linux虚拟机使用centos7系统,命名node_01,node_02,node_03,具体在VMware上的各种安装过程见其他博客二.虚拟机参数设置(温馨提示:直接在root权限下进行配置会减少很多困扰~)1.配置Linux系统网络及主机名创建完成的三台虚拟机默认为动态IP地址,且 阅读全文
posted @ 2022-12-03 04:16 脑袋凉凉 阅读(582) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示