摘要:
【1】k8s主要提供了如下的主要功能: 自我修复:一旦某一个容器崩溃,能够在1秒钟左右迅速启动新的容器 弹性伸缩:可以根据需要,自动对集群中正在运行的容器数量进行调整 服务发现:服务可以通过自动发现的形式找到它所依赖的服务 负载均衡:如果一个服务启动了多个容器,能够自动实现请求的负载均衡 版本回退: 阅读全文
摘要:
参照:https://my.oschina.net/u/2000675/blog/5537014 1.得到某个时间点的全量数据。 2.得到最新的全量数据。 end_date='9999-99-99' 3.拉链表的制作过程。(start_date,end_date,分区:dt) 制作过程拆分: 》 s 阅读全文
摘要:
(1)构建Spark Application的运行环境,启动SparkContext (2)SparkContext向资源管理器注册并向资源管理器申请运行Executor (3)资源管理器分配Executor并启动Executor (4)Executor发送心跳至资源管理器 (5)SparkCont 阅读全文
摘要:
底层hive会先进行类型转换,至于转成string,还是int 得看hive的版本,再求hash值。但如果string类型数据过大,超过范围的数据在转换为bigint时,都会变成相同的结果,然后对这些数据求hash,得出的结果就会一样,这样数据会被分配到同一个分区处理,容易产生数据倾斜。 解决办法: 阅读全文
摘要:
在实际应用中,如果需要把磁盘中的某个文件内容发送到远程服务器上,那么他必须经过几个拷贝过程(1)从磁盘中去读取目标文件的内容拷贝到内核缓冲区中(2)把内核缓冲区的数据拷贝到用户空间的缓冲区中(3)在应用程序中调用write()方法把用户空间缓冲区的数据拷贝到内核空间的socket Buffer中(4 阅读全文
摘要:
1.foldLeft,初始值是0,0+_._2,然后作为初始值_,再继续进行累加。 2.伴生类中private 定义的变量,只能在伴生对象中访问,在别的地方访问需要在伴生类中定义获取的方法。 3.偏函数:由{}和里面的case组成,并且没有match,第一个参数是传入参数,第二个参数是返回值。 4. 阅读全文
摘要:
1.namenode元数据管理: 2.linux shell脚本日志采集上传到hdfs脚本 https://www.cnblogs.com/biehongli/p/9010933.html 3.yarn 资源调度器 FIFO(先进先出)调度器 容量调度器(浪费资源) 公平调度器(动态分配)(最优) 阅读全文
摘要:
https://www.cnblogs.com/yy3b2007com/p/10642398.html 阅读全文
摘要:
(1)java相关知识 https://www.cnblogs.com/zjwoo/p/15312042.html (2)数据库的ACID特性 https://www.cnblogs.com/sang-bit/p/15317854.html (3)hive的分桶表 https://www.cnblo 阅读全文