1.jieba库可以对中文进行分词

2.由于yarn是集群运行,executor可以在所有服务器上执行,所以每个服务器都需要有哦jieba库提供支撑

3.如何尽量提高任务计算的资源

计算cpu核心和内存量,通过–executor-memory指定executor内存,通过–executor-cores指定executor的核心

通过—num-executors指定executor数量

第五章

1.广播变量解决了什么问题

分布式集合rdd和本地集合进行关联使用的时候,降低内存占用以及减少网络IO传输,提高性能

2.累加器解决了什么问题

分布式代码执行中,执行全局累