2020 年 12月 21 日随笔档案 - PEAR2020

2020年12月21日

离线数据分析之人物兴趣取向分析（2-2）离线/实时项目架构|项目流程|数仓构建（进阶篇）

摘要：一、离线 vs 实时流框架用spark数据清洗的过程见：日志分析 https://www.cnblogs.com/sabertobih/p/14070357.html 实时流和离线的区别在于数据处理之间的时间差，而不取决于工具。所以kafka，sparkstreaming亦可用于离线批处理。离线阅读全文

posted @ 2020-12-21 22:09 PEAR2020 阅读(579) 评论(0) 推荐(1) 编辑

hive 和 hbase的联系

摘要：两者的概念： Hive是运行在Hadoop上的一个工具，准确地讲是一个搜索工具。当对海量数据进行搜索时，Hadoop的计算引擎是MapReduce。但是对MapReduce的操作和编程是非常复杂的。于是Hive的存在就让复杂的编程过程简化成了用SQL语言对海量数据的操作。这大大减轻了程序员的工作量。阅读全文

posted @ 2020-12-21 17:54 PEAR2020 阅读(433) 评论(0) 推荐(0) 编辑

hive 之 UDF & 宏

摘要： udf适用于： 1.需要循环结构 2.临时函数&永久函数 macro适用于： 1.字段值的转换映射 2.逻辑校验 3.临时详见：https://segmentfault.com/a/1190000009816609 阅读全文

posted @ 2020-12-21 09:16 PEAR2020 阅读(138) 评论(0) 推荐(0) 编辑

PEAR2020

公告