上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 26 下一页
摘要: 两者的概念: Hive是运行在Hadoop上的一个工具,准确地讲是一个搜索工具。当对海量数据进行搜索时,Hadoop的计算引擎是MapReduce。但是对MapReduce的操作和编程是非常复杂的。于是Hive的存在就让复杂的编程过程简化成了用SQL语言对海量数据的操作。这大大减轻了程序员的工作量。 阅读全文
posted @ 2020-12-21 17:54 PEAR2020 阅读(433) 评论(0) 推荐(0) 编辑
摘要: udf适用于: 1.需要循环结构 2.临时函数&永久函数 macro适用于: 1.字段值的转换映射 2.逻辑校验 3.临时 详见:https://segmentfault.com/a/1190000009816609 阅读全文
posted @ 2020-12-21 09:16 PEAR2020 阅读(138) 评论(0) 推荐(0) 编辑
摘要: " g "是全局即全部字符串,而如果想要多行匹配(有多行效果)就要再加" m ",如果想要忽略大小写再加” i “。 多行效果的作用: m修饰符的作用是修改^和$在正则表达式中的作用,让它们分别表示行首和行尾。在默认状态下,一个字符串无论是否换行只有一个开始^和结尾$,如果采用多行匹配,那么每一个行 阅读全文
posted @ 2020-12-20 20:49 PEAR2020 阅读(125) 评论(0) 推荐(0) 编辑
摘要: 最好1个列族,实在不行1~3个列族1)技术层面放在一起:连带需要 name+age+year => 具有不可分离的特性,查某属性其他属性也会需要 => 适合一个列族2)同一个业务下的属性 阅读全文
posted @ 2020-12-17 19:45 PEAR2020 阅读(106) 评论(0) 推荐(0) 编辑
摘要: PASS 背景:每个分区只能由消费组内的一个消费者去消费。那么,同一个消费组内的消费者是如何确定消费哪些分区的数据呢?分区分配条件:发生rebalance三种分配策略: 1.Range 2.RoundRobin 3.Sticky 阅读全文
posted @ 2020-12-17 10:52 PEAR2020 阅读(162) 评论(0) 推荐(0) 编辑
摘要: PASS https://www.cnblogs.com/cnblogs-syui/p/12566642.html 阅读全文
posted @ 2020-12-16 18:39 PEAR2020 阅读(268) 评论(0) 推荐(0) 编辑
摘要: PASS spark中repartition什么分区最合适1.节点*每台核数2.hdfs块数/1283.goal文件切片那边 分区数接近2000,写2000 如果核数少,task数用2到3倍,文件朵的更碎,有效利用核资源2 300 ~ 1000 节点*每台核数太大了,>2000,写2000 阅读全文
posted @ 2020-12-14 23:26 PEAR2020 阅读(468) 评论(0) 推荐(0) 编辑
摘要: PASS https://www.cnblogs.com/coco2015/p/11240677.html 阅读全文
posted @ 2020-12-14 23:25 PEAR2020 阅读(76) 评论(0) 推荐(0) 编辑
摘要: PASS Pycharm setting -> interpretor -> pyspark 3.0.1 --trusted-host pypi.douban.com 阅读全文
posted @ 2020-12-14 23:18 PEAR2020 阅读(85) 评论(0) 推荐(0) 编辑
摘要: 一、关于读取/写入kfk https://www.cnblogs.com/importbigdata/p/10765558.html 1.kfkstreaming只能接kfk,而sparkstreaming比较通用 2.两种读取方法:1.director 效率高 2.receiver 3.写入方法: 阅读全文
posted @ 2020-12-14 22:45 PEAR2020 阅读(248) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 26 下一页