PEAR2020

2020年12月24日

离线数据分析之人物兴趣取向分析（2-3）使用pyspark构建Kmeans/随机森林完成分类预测

摘要：一、下载包 settings -> interpreter -> + joblib 存取模型 + matplotlib + numpy + pyspark + scikit-learn 二、先确定pyCharm能用spark.sql连接hive成功见 https://www.cnblogs.co 阅读全文

posted @ 2020-12-24 14:38 PEAR2020 阅读(569) 评论(0) 推荐(0)

python 之sparkSQL连接hive

摘要：可参考 https://blog.csdn.net/m0_46651978/article/details/111618085#comments_14329527 一、首先，linux上单节点方法 1. 先把spark stop了：sbin/stop-all.sh2. 把hive里面的hive-s 阅读全文

posted @ 2020-12-24 12:38 PEAR2020 阅读(1174) 评论(0) 推荐(0)

2020年12月22日

hive面试题之统计最近七天内连续登陆3天的用户数量

摘要：原始数据： val df = Seq( ("2020-09-21",1), ("2020-09-20",1), ("2020-09-19",1), ("2020-09-17",1), ("2020-09-16",1), ("2020-09-15",1), ("2020-09-20",2), ("20 阅读全文

posted @ 2020-12-22 09:37 PEAR2020 阅读(1607) 评论(0) 推荐(0)

2020年12月21日

离线数据分析之人物兴趣取向分析（2-2）离线/实时项目架构|项目流程|数仓构建（进阶篇）

摘要：一、离线 vs 实时流框架用spark数据清洗的过程见：日志分析 https://www.cnblogs.com/sabertobih/p/14070357.html 实时流和离线的区别在于数据处理之间的时间差，而不取决于工具。所以kafka，sparkstreaming亦可用于离线批处理。离线阅读全文

posted @ 2020-12-21 22:09 PEAR2020 阅读(613) 评论(0) 推荐(1)

hive 和 hbase的联系

摘要：两者的概念： Hive是运行在Hadoop上的一个工具，准确地讲是一个搜索工具。当对海量数据进行搜索时，Hadoop的计算引擎是MapReduce。但是对MapReduce的操作和编程是非常复杂的。于是Hive的存在就让复杂的编程过程简化成了用SQL语言对海量数据的操作。这大大减轻了程序员的工作量。阅读全文

posted @ 2020-12-21 17:54 PEAR2020 阅读(448) 评论(0) 推荐(0)

hive 之 UDF & 宏

摘要： udf适用于： 1.需要循环结构 2.临时函数&永久函数 macro适用于： 1.字段值的转换映射 2.逻辑校验 3.临时详见：https://segmentfault.com/a/1190000009816609 阅读全文

posted @ 2020-12-21 09:16 PEAR2020 阅读(143) 评论(0) 推荐(0)

2020年12月20日

正则中的igm

摘要： " g "是全局即全部字符串，而如果想要多行匹配（有多行效果）就要再加" m ",如果想要忽略大小写再加” i “。多行效果的作用： m修饰符的作用是修改^和$在正则表达式中的作用，让它们分别表示行首和行尾。在默认状态下，一个字符串无论是否换行只有一个开始^和结尾$，如果采用多行匹配，那么每一个行阅读全文

posted @ 2020-12-20 20:49 PEAR2020 阅读(137) 评论(0) 推荐(0)

2020年12月17日

hbase 之分列族的依据

摘要：最好1个列族，实在不行1~3个列族1）技术层面放在一起：连带需要 name+age+year => 具有不可分离的特性，查某属性其他属性也会需要 => 适合一个列族2）同一个业务下的属性阅读全文

posted @ 2020-12-17 19:45 PEAR2020 阅读(109) 评论(0) 推荐(0)

kafka的分区分配策略

摘要： PASS 背景：每个分区只能由消费组内的一个消费者去消费。那么，同一个消费组内的消费者是如何确定消费哪些分区的数据呢？分区分配条件：发生rebalance三种分配策略： 1.Range 2.RoundRobin 3.Sticky 阅读全文

posted @ 2020-12-17 10:52 PEAR2020 阅读(163) 评论(0) 推荐(0)

2020年12月16日

hbase 之预分区和自动分区策略

摘要： PASS https://www.cnblogs.com/cnblogs-syui/p/12566642.html 阅读全文

posted @ 2020-12-16 18:39 PEAR2020 阅读(274) 评论(0) 推荐(0)

公告