2020年10月26日
摘要: 需要使用请自行下载使用说明和Excel 百度网盘链接地址: 链接:https://pan.baidu.com/s/1lCWMK81jQHDOCOJqSy9T2w?pwd=tyoo 提取码:tyoo import xlrd # 打开文件 data = xlrd.open_workbook("Creat 阅读全文
posted @ 2020-10-26 18:56 灰色...天空 阅读(950) 评论(2) 推荐(0) 编辑
摘要: 废话不多说直接上代码 import time from telnetlib import EC import xlwt as xlwt from selenium import webdriver from selenium.webdriver import ActionChains from se 阅读全文
posted @ 2020-10-26 18:33 灰色...天空 阅读(583) 评论(0) 推荐(0) 编辑
  2019年11月25日
摘要: 创建(切换)数据库 use dbname 查看所有数据库 show dbs 查看当前数据库 db 查看数据库里所有表 show collcetions或(show tables) 查看表里的所有数据 db.test.find() 删除数据库 db.dropDatabase() 删除表里的某个数据 d 阅读全文
posted @ 2019-11-25 17:15 灰色...天空 阅读(159) 评论(0) 推荐(0) 编辑
  2019年10月27日
摘要: 1、避免创建重复的RDD和不必要的内存空间浪费 错误代码: 错误解析: 这种情况下,Spark需要从文件中加载两次hello.txt文件的内容,并创建两个单独的RDD;第二次加载HDFS文件以及创建RDD的性能开销,很明显是白白浪费掉的 正确代码: 2、尽最大可能复用同一个RDD 错误代码: 错误解 阅读全文
posted @ 2019-10-27 12:25 灰色...天空 阅读(346) 评论(0) 推荐(0) 编辑
摘要: 1、首先我们编写完类打成jar包提交到集群上,然后用spark-submit提交任务。提交任务可以分为集群和本地模式(集群:spark-submit --master spark://master:7077 --class 全类名 jar包路径 需要的参数)(本地:spark-submit --cl 阅读全文
posted @ 2019-10-27 12:04 灰色...天空 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 粘贴复制时记得把\后面的空格和注释删除!!! 1.查看数据库 sqoop list-databases \ #查看数据库的命令 --connect jdbc:mysql://master:3306 \ #数据库连接地址 --username root \ #用户名 --password root # 阅读全文
posted @ 2019-10-27 12:03 灰色...天空 阅读(181) 评论(0) 推荐(0) 编辑
  2019年9月5日
摘要: Hive的数据类型 Hive的基本数据类型 Hive的复杂数据类型 复杂数据类型包括数组(ARRAY)、映射(MAP)和结构体(STRUCT),具体如下表所示: Hive的表库操作 Hive的数据库操作 Hive中数据库的概念本质上仅仅是表的一个目录或者命名空间。然而,对于具有 很多组和用户的大集群 阅读全文
posted @ 2019-09-05 16:42 灰色...天空 阅读(3608) 评论(0) 推荐(0) 编辑
摘要: Hive简介 Hive是构建在Hadoop之上的数据操作平台 Hive是一个SQL解析引擎,它将SQL转译成MapReduce作业,并在Hadoop上运行 Hive表是HDFS的一个文件目录,一个表名对应一个目录名,如果存在分区表的话,则分区值对应子目录名。 Hive的安装与配置 hive2.3.5 阅读全文
posted @ 2019-09-05 14:15 灰色...天空 阅读(179) 评论(0) 推荐(0) 编辑
  2019年8月29日
摘要: Yarn的概述 YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,是 Hadoop2.x 版本中的一个新特性。 Yarn中的角色 Yarn也是主从结构,主要由ResourceManager、NodeManager、 ApplicationMaster和C 阅读全文
posted @ 2019-08-29 16:26 灰色...天空 阅读(612) 评论(0) 推荐(0) 编辑
摘要: MapReduce案例 1.单词计数--wordcount 首先准备好文件 开始编写程序 2.计算每个人的钱数 文件1 文件2 代码编写 3.求出共同好友 准备文件 编写代码 上面的程序输出的结果 最终结果展示 4.读取JSON数据 5.分区解决数据倾斜 准备一个文件里面一个单词非常多别的很少 5. 阅读全文
posted @ 2019-08-29 15:18 灰色...天空 阅读(1036) 评论(0) 推荐(1) 编辑