12 2022 档案
摘要:1.题目在漆黑的夜里,四位旅行者来到了一座狭窄而且没有护栏的桥边。如果不借助手电筒的话,大家是无论如何也不敢过桥去的。不幸的是,四个人一共只带了一只手电筒,而桥窄得只够让两个人同时过。如果各自单独过桥的话,四人所需要的时间分别是1、2、5、8分钟;而如果两人同时过桥,所需要的时间就是走得比较慢的那个
阅读全文
摘要:环境:虚拟机hive+本地spark+python(pyspark)数据:商品订单数据+商品种类数据步骤:将数据上传到hdfs后,在python中完成hive表的创建,数据处理,关联规则挖掘,数据可视化实现功能:对商品订单中的信息进行挖掘,得到商品组合之间的关联关系(本文只对order进行了处理,没
阅读全文
摘要:上一篇文章介绍了python连接hive的过程,通过地址+端口号访问到hive并对hive中的数据进行操作,这一篇文章介绍一下怎么通过windows本地pyspark+本地部署好的spark+远程虚拟机的hive,完成本地pyspark对hive的访问。一.环境介绍(1)关于pyspark这个是之前
阅读全文
摘要:步骤:启动metastore启动hiveserver2使用beeline进行连接测试,查看地址等是否能够成功连接(确认无误可以跳过)使用python连接hive(粗暴的文件配置以及完整操作见文末)一.启动hiveserver21.配置mode为http,端口为10001(默认)<property>
阅读全文
摘要:题目:1、 创建员工信息数据文件employess.txt,数据文件中包含内容如下(姓名、年龄、薪资、):Lilith Hardy,30,6000,50,Finance DepartmentByron Green,36,5000,25,Personnel DepartmentYvette Ward,
阅读全文
摘要:一.数据库操作1.显示当前所有数据库Show databases;2.创建数据库studyCREATE DATABASE IF NOT EXISTS study COMMENT "This is study database"LOCATION '/user/hive_db/create_db/';3
阅读全文
摘要:Hadoop集群部署:https://www.cnblogs.com/Studywith/p/16948866.html一.Hive的三种部署模式1.嵌入模式 使用内嵌的Derby数据库存储元数据,是Hive最简单的部署方式。嵌入模式下的Hive不支持多会话连接,不适合生产环境,只适合测试环境。 2
阅读全文
摘要:Linux环境搭建:https://www.cnblogs.com/Studywith/p/16946297.html免密连接:https://www.cnblogs.com/Studywith/p/16946310.htmlJDK和ZooKeeper部署:https://www.cnblogs.c
阅读全文
摘要:Linux环境搭建:https://www.cnblogs.com/Studywith/p/16946297.html免密连接:https://www.cnblogs.com/Studywith/p/16946310.html在完成了Linux虚拟机的基础配置后,接下来进行JDK和ZooKeeper
阅读全文
摘要:一.主机IP映射就是将虚拟机的IP地址和主机名进行映射,这样就可以直接通过root@主机名的方式找到对应的虚拟机(三台虚拟机都要建立三条映射关系)vim /etc/hosts192.168.121.130 node01 192.168.121.131 node02 192.168.121.132 n
阅读全文
摘要:一.安装三台Linux虚拟机使用centos7系统,命名node_01,node_02,node_03,具体在VMware上的各种安装过程见其他博客二.虚拟机参数设置(温馨提示:直接在root权限下进行配置会减少很多困扰~)1.配置Linux系统网络及主机名创建完成的三台虚拟机默认为动态IP地址,且
阅读全文
摘要:一.问题新安装的虚拟机在用户使用sudo修改文件权限时提示XXX is not in the sudoers file. This incident will be reported.二.解决参考:https://blog.csdn.net/danykk/article/details/801378
阅读全文