摘要: 使用 operator state的方式有以下几种: 方式一: stateful function(RichFunction) 实现 CheckpointFunction 接口 必须实现两个方法:Void snapshotState(FunctionSnapshotContext context) 阅读全文
posted @ 2020-06-27 21:03 风清_云淡 阅读(772) 评论(0) 推荐(0) 编辑
摘要: join 是sql语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余,更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 sparksql作为大数据领域的sql实现,自然也对join操作做了不少优化,今天主要看一下在spark sql中对于join,常见 阅读全文
posted @ 2020-06-15 09:10 风清_云淡 阅读(1772) 评论(0) 推荐(0) 编辑
摘要: 讨论一下kafka参数的配置 1、acks 参数配置 acks这个参数有三个值:0,1,-1,但是不用的参数对应的含义不同,那如果我们想要保证数据不丢失,acks 值应该设置为哪个参数呢? 0:代表生产者只要把消息发送出去以后就认为消息发送成功了,这种方式有可能会导致数据丢失,因为有可能消息发送到服 阅读全文
posted @ 2020-06-14 18:15 风清_云淡 阅读(875) 评论(0) 推荐(0) 编辑
摘要: 有时候可能会进行hadoop集群数据拷贝的情况,可用以下命令进行拷贝 需要在目标集群上来进行操作 hadoop distcp hdfs://192.168.1.233:8020/user/hive/warehouse/test_data.db/dwi_test_data_d /user/hive/w 阅读全文
posted @ 2020-06-10 11:13 风清_云淡 阅读(392) 评论(0) 推荐(0) 编辑
摘要: 介绍YARN组件的功能及应用场景 1、ResourceManager(RM) RM是一个全局的资源管理器,集群中只有一个。它负责整个Hadoop系统的资源管理和分配,包括处理客户端请求、启动监控 ApplicationMaster、监控NodeManager、 资源的分配与调度等。它主要由两个组件构 阅读全文
posted @ 2020-06-08 11:06 风清_云淡 阅读(399) 评论(0) 推荐(0) 编辑
摘要: 1、今天在进行hive测试的时候,发现hive一直进不去,并且报了这个错误。 Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 网上查找了下原因: https://blog.csdn 阅读全文
posted @ 2020-05-10 10:19 风清_云淡 阅读(526) 评论(0) 推荐(0) 编辑
摘要: cloudermanager安装包地址:http://archive.cloudera.com/cm5/cm/5/cloudera-manager-el6-cm5.3.0_x86_64.tar.gz, 红色部分为版本号,修改红色部分即可获取不同版本的安装包 CDH安装包地址:http://archi 阅读全文
posted @ 2020-04-25 19:04 风清_云淡 阅读(4006) 评论(0) 推荐(0) 编辑
摘要: 1、sparkSql处理核心:Catalyst工作流程(本质:把sql、dataframe相结合,以树tree的形式来存储、优化) 2、catalyst工作流程 1)Parser(解析器):SqlParser生成LogicPlan Tree 主要是先进行词法分析,再进行语法非分析 词法分析:将输入的 阅读全文
posted @ 2020-04-25 19:03 风清_云淡 阅读(1006) 评论(0) 推荐(0) 编辑
摘要: 参考来源: https://blog.csdn.net/u011748319/article/details/90269818 1、推荐算法 1.1、协同过滤 协同过滤是目前应用最广泛的推荐算法,它仅仅通过了解用户与物品之间的关系进行推荐,而根本不会考虑到物品本身的属性。 可分成两类: 1、基于用户 阅读全文
posted @ 2020-04-07 18:50 风清_云淡 阅读(2473) 评论(0) 推荐(0) 编辑
摘要: 中台的定义:企业级能力复用平台。 1、企业级 企业级定义了中台的范围。不是说一个企业只能有一个中台,也不代表一个中台就是只能包含一家企业,企业级更多代表的是中台处理的问题在 企业级别,即至少包含多条业务线或服务多个前台产品(团队),如果一个中台只为了支持一条业务线或产品线,那就不是中台,即使它用了服 阅读全文
posted @ 2020-03-31 08:38 风清_云淡 阅读(226) 评论(0) 推荐(0) 编辑