摘要: 【1】k8s主要提供了如下的主要功能: 自我修复:一旦某一个容器崩溃,能够在1秒钟左右迅速启动新的容器 弹性伸缩:可以根据需要,自动对集群中正在运行的容器数量进行调整 服务发现:服务可以通过自动发现的形式找到它所依赖的服务 负载均衡:如果一个服务启动了多个容器,能够自动实现请求的负载均衡 版本回退: 阅读全文
posted @ 2022-12-12 18:23 hulifang 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2022-09-30 18:10 hulifang 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 参照:https://my.oschina.net/u/2000675/blog/5537014 1.得到某个时间点的全量数据。 2.得到最新的全量数据。 end_date='9999-99-99' 3.拉链表的制作过程。(start_date,end_date,分区:dt) 制作过程拆分: 》 s 阅读全文
posted @ 2022-08-23 11:06 hulifang 阅读(257) 评论(0) 推荐(0) 编辑
摘要: (1)构建Spark Application的运行环境,启动SparkContext (2)SparkContext向资源管理器注册并向资源管理器申请运行Executor (3)资源管理器分配Executor并启动Executor (4)Executor发送心跳至资源管理器 (5)SparkCont 阅读全文
posted @ 2022-06-17 10:47 hulifang 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 底层hive会先进行类型转换,至于转成string,还是int 得看hive的版本,再求hash值。但如果string类型数据过大,超过范围的数据在转换为bigint时,都会变成相同的结果,然后对这些数据求hash,得出的结果就会一样,这样数据会被分配到同一个分区处理,容易产生数据倾斜。 解决办法: 阅读全文
posted @ 2022-06-16 17:32 hulifang 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 在实际应用中,如果需要把磁盘中的某个文件内容发送到远程服务器上,那么他必须经过几个拷贝过程(1)从磁盘中去读取目标文件的内容拷贝到内核缓冲区中(2)把内核缓冲区的数据拷贝到用户空间的缓冲区中(3)在应用程序中调用write()方法把用户空间缓冲区的数据拷贝到内核空间的socket Buffer中(4 阅读全文
posted @ 2022-06-16 17:18 hulifang 阅读(638) 评论(0) 推荐(0) 编辑
摘要: 1.foldLeft,初始值是0,0+_._2,然后作为初始值_,再继续进行累加。 2.伴生类中private 定义的变量,只能在伴生对象中访问,在别的地方访问需要在伴生类中定义获取的方法。 3.偏函数:由{}和里面的case组成,并且没有match,第一个参数是传入参数,第二个参数是返回值。 4. 阅读全文
posted @ 2021-11-19 17:05 hulifang 阅读(48) 评论(0) 推荐(0) 编辑
摘要: 1.namenode元数据管理: 2.linux shell脚本日志采集上传到hdfs脚本 https://www.cnblogs.com/biehongli/p/9010933.html 3.yarn 资源调度器 FIFO(先进先出)调度器 容量调度器(浪费资源) 公平调度器(动态分配)(最优) 阅读全文
posted @ 2021-10-27 14:49 hulifang 阅读(31) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/yy3b2007com/p/10642398.html 阅读全文
posted @ 2021-10-19 11:37 hulifang 阅读(573) 评论(0) 推荐(0) 编辑
摘要: (1)java相关知识 https://www.cnblogs.com/zjwoo/p/15312042.html (2)数据库的ACID特性 https://www.cnblogs.com/sang-bit/p/15317854.html (3)hive的分桶表 https://www.cnblo 阅读全文
posted @ 2021-09-22 15:17 hulifang 阅读(20) 评论(0) 推荐(0) 编辑