摘要: 数据倾斜含义: 1.1、是指shuffle过程中,必须将各个节点上相同key拉取到某个节点上的一个task来进行处理,此时如果某个key对应的数据特别大的话,就会发生数据倾斜。 1.2、数据倾斜举例: 二、数据倾斜现象 2.1、同一个stage中相同task绝大部分task执行时间快,少数几个执行时 阅读全文
posted @ 2020-04-29 09:24 一颗小白菜灬 阅读(769) 评论(0) 推荐(0) 编辑
摘要: API def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] 返回值是RDD,RDD中的类型是一个二元组(a),a第一个元素是KEY类型的值(join的key), a第二个元素又是二元组(b), b的第一个元素是来自调用join函数的RDD的value, 阅读全文
posted @ 2020-04-29 09:13 一颗小白菜灬 阅读(347) 评论(0) 推荐(0) 编辑
摘要: JOIN在Spark Core中的使用1. inner joininner join,只返回左右都匹配上的 // 启动spark-shell,定义两个rdd,做join操作[hadoop@hadoop01 ~]$ spark-shell --master local[2]scala> val a = 阅读全文
posted @ 2020-04-29 09:04 一颗小白菜灬 阅读(1907) 评论(0) 推荐(0) 编辑
摘要: filebeat: registry_file: .filebeat # 记录filebeat处理日志文件的位置的文件,默认在启动的根目录下 prospectors: - paths: - /home/wangyu/Test/*.log input_type: log document_type: 阅读全文
posted @ 2020-04-03 09:42 一颗小白菜灬 阅读(401) 评论(0) 推荐(0) 编辑
摘要: 简介:一 Filebeat由2个主要组件构成:prospector、harvesters: 1.harvesters:负责进行单个文件内容收集,每个Harvester会对1个文件逐行进行读取并把读到的内容发到配置的output中 2.prospector:管理Harvsters并找到所有需读取的数据 阅读全文
posted @ 2020-04-03 09:35 一颗小白菜灬 阅读(701) 评论(0) 推荐(0) 编辑
摘要: ! % & * + - / < <= <=> = == > >= ^ abs acos add_months aggregate and approx_count_distinct approx_percentile array array_contains array_distinct array 阅读全文
posted @ 2020-04-03 09:28 一颗小白菜灬 阅读(1439) 评论(0) 推荐(0) 编辑
摘要: kafka分区,excutor,task,RDD分区的关系: 数据的流:数据流向从kafka>sparkStreaming>RDD 1 kafka中的 topic 的 patition 分区的设置,kafka 的 partition 分区数 ,sparkStreaming 直连方式从kafka中拉数 阅读全文
posted @ 2020-03-20 11:53 一颗小白菜灬 阅读(671) 评论(0) 推荐(0) 编辑
摘要: 1,方法的重载和方法的重写 方法名相同形参列表不通 方法名字的重新定义2,面向过程是分步骤解决问题 用方法组织代码 面向对象是以分类的方式解决问题 用类住址代码3 类是对对象的抽象 对象万事万物都是对象4 方法和构造器的重载发生就近原则5 方法执行结束这个方法的变量和形参都会消失6 this指向当前 阅读全文
posted @ 2020-01-19 11:05 一颗小白菜灬 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 比如两个rdd 两个分区合并去他们的并集 intersection 去数据的交集 subtract去差集 mappartition与map像是遍历的单位是每个pation分区的数据进来的是iterrter是迭代器 distinct去重(map+reducebykey+map) cogroup 作用在 阅读全文
posted @ 2020-01-19 10:58 一颗小白菜灬 阅读(1713) 评论(0) 推荐(0) 编辑
摘要: strom 容错性 nimbus 挂掉之后会不会集群就崩塌了 因为有了zookeeper所以协调的事情就简单了 数据的完整性 比如不是物理条件什么的错误 是消息传递时比如 我切割ack不能保证数据被重复计算 只能保证数据最少被计算一次 drpc 分布式的远程调用lineardrpc 一种线性的半自动 阅读全文
posted @ 2020-01-19 10:54 一颗小白菜灬 阅读(100) 评论(0) 推荐(0) 编辑