摘要:
#Yarn部署 #Sesssion-cluster Session-Cluster模式需要先启动集群,然后再提交作业,接着会向yarn申请一块空间后,资源永远保持不变。如果资源满了,下一个作业就无法提交,只能等到yarn中的其中一个作业执行完成后,释放资源,下个作业才会正常提交所有作业共享Dispa 阅读全文
摘要:
本文来源:鲜枣课堂 2010年,几个搞IT的年轻人,在美国旧金山成立了一家名叫“dotCloud”的公司。 这家公司主要提供基于PaaS的云计算技术服务。具体来说,是和LXC有关的容器技术。 LXC,就是Linux容器虚拟技术(Linux container) 后来,dotCloud公司将自己的容器 阅读全文
摘要:
一、template下文件不允许直接访问 1、查资料得知:springboot项目默认是不允许直接访问template下的文件的,是受保护的。 所以想访问template下的html页面,我们可以配置视图解析器。 2、如果想要用视图去展示,应该要设置好视图展示页面,比如说用一个模板语言来接收返回的数 阅读全文
摘要:
Object 在scala中被object关键字修饰的类有如下特征: 1、是单例的 2、不需要通过new来创建对象,直接通过类名创建 3、没有有参的主构造器,但是有主构造代码块(不包含在任何方法中的代码,就是object的主构造代码块) 4、通常用于封装一些常量、工具类、枚举和隐式转换函数 5、主构 阅读全文
摘要:
一、Spark数据分区方式简要 在Spark中,RDD(Resilient Distributed Dataset)是其最基本的抽象数据集,其中每个RDD是由若干个Partition组成。在Job运行期间,参与运算的Partition数据分布在多台机器的内存当中。这里可将RDD看成一个非常大的数组, 阅读全文
摘要:
#控制器选举 Kafka 当前选举控制器的规则是:Kafka 集群中第一个启动的 broker 通过在 ZooKeeper 里创建一个临时节点 /controller 让自己成为 controller 控制器。其他 broker 在启动时也会尝试创建这个节点,但是由于这个节点已存在,所以后面想要创建 阅读全文
摘要:
#消息队列两种模式 1.点对点:一对一,消费者主动拉取数据,消息收到后消息清除 2.发布/订阅模式:一对多,消费者消费数据之后不会消除消息 推-->以同样的方式传给消费者,可能导致消费者资源处理不足或消费者资源浪费(不同消费者处理能力不一样) 拉取-->消费者要不断轮询队列中是否有消息 #基础架构 阅读全文
摘要:
#分区策略 1.分区原因 方便在集群中扩展,每个分区可以通过调整以适应它所在的机器,而每个topic又可以由多个分区组成,因此整个集群就可以适应任意大小的数据了 可以提高并发,,以分区为单位进行读写 2.分区原则 指明分区的情况下,直接将指明的值作为分区的值 没有指明分区,但有key的情况下,将ke 阅读全文
摘要:
```shell #!/bin/bash case $1 in "start"){ for i in hadoop120 hadoop121 hadoop 122 do echo "************$i*************" ssh $i "/.../kafka/bin/kafka-server-start.sh -daemon /.../kafka/config/server.pr 阅读全文
摘要:
1.小表、大表join 将key相对分散,并且小表放在join左边,减少内存溢出的几率,也可以用mapjoin让小表先进内存,在map端完成reduce。 新版hive已经对这做了优化,大小表在join左边或者右边差不多 2.大表join大表 空key过滤 join操作在相同key数据太多时会将数据 阅读全文