impala基础

摘要: 说明: impala能够对存储在hdfs,hbase上的数据进行快速的交互式sql查询 impala与hive使用了统一的存储系统,同样的元数据库,sql语法(hive-sql),odbc驱动和用户交互接口(Hue) impala对实时的或者面向批处理的查询提供了一个统一的平台,impala在性能上 阅读全文
posted @ 2021-10-16 11:44 风有衡 阅读(105) 评论(0) 推荐(0) 编辑

Hbase基础

摘要: Hbase数据的读取流程: 1.Client访问zookeeper,获取元数据存储所在的regionServer 2.通过刚刚获取的地址访问对应的regionServer,拿到对应的表存储的regionServer 3.去表所在的regionServer进行数据的读取 4.查找对应的region,在 阅读全文
posted @ 2021-10-16 11:13 风有衡 阅读(44) 评论(0) 推荐(0) 编辑

大数据开发规范

摘要: 大数据平台开发管理规范1 系统架构介绍与描述1.1 系统介绍1、Lxx1-xx1大数据基础数据平台:xx1是公共基础数据层。主要是用于从各关系型数据库或其它子公司抽取数据,并提供给所有团队使用的基础数据平台;2、Lxx1-xx3大数据对外公共数据平台:xx3是数据对外公共层,主要是用于对外部公司供数 阅读全文
posted @ 2020-09-20 21:10 风有衡 阅读(403) 评论(0) 推荐(0) 编辑

用户画像

摘要: 用户画像营销推荐 邮件-短信-push信息(任务栏推荐)有用的规律以支持决策喜欢什么的东西的人往往喜欢什么做了这个事的人一般接下来会做什么 啤酒与尿布 建模客户消费订单客户消费的情况来提取的客户标签用于了解用户的消费总体情况,以根据用户消费习惯与消费能力做营销订单表/退货表/退货表/购物车表第一次消 阅读全文
posted @ 2019-06-18 22:47 风有衡 阅读(755) 评论(0) 推荐(0) 编辑

hsql整理

摘要: 一、行转列的使用1、问题hive如何将a b 1a b 2a b 3c d 4c d 5c d 6变为:a b 1,2,3c d 4,5,6 2、数据test.txta b 1 a b 2 a b 3 c d 4 c d 5 c d 6 3、答案1.建表drop table tmp_jiangzl_ 阅读全文
posted @ 2019-06-12 21:59 风有衡 阅读(3455) 评论(0) 推荐(0) 编辑

大数据复习

摘要: 数据清洗 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。 预处理阶段 一是将数据导入处理工具。通常来说,建议使用数据库,单机跑数搭建MySQL环境即可 二是看数据。这里包含两个部分:一是看元数据,包括字 阅读全文
posted @ 2019-06-11 22:08 风有衡 阅读(567) 评论(0) 推荐(0) 编辑

Spark 编程模型(下)

摘要: 创建Pair RDD 什么是Pair RDD ● 包含键值对类型的RDD被称作Pair RDD ● Pair RDD通常用来进行聚合计算 ● Pair RDD通常由普通RDD做ETL转换而来 创建Pair RDD ● Python:pairs = lines.map(lambda x: (x.spl 阅读全文
posted @ 2019-01-21 13:34 风有衡 阅读(168) 评论(0) 推荐(0) 编辑

Spark 编程模型(中)

摘要: 创建RDD 方式一:从集合创建RDD ● makeRDD ● Parallelize 注意:makeRDD可以指定每个分区perferredLocations参数parallelize则没有。 方式二:读取外部存储创建RDD Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数 阅读全文
posted @ 2019-01-21 13:33 风有衡 阅读(100) 评论(0) 推荐(0) 编辑

Spark 编程模型(上)

摘要: 从Hadoop MR到Spark 回顾hadoop—mapreduce计算过程 MR VS Spark 从Hadoop MR到Spark 回顾hadoop—mapreduce计算过程 MR VS Spark Spark编程模型 核心概念 注意:对比mr里的概念来学习 Spark Applicatio 阅读全文
posted @ 2019-01-20 16:27 风有衡 阅读(117) 评论(0) 推荐(0) 编辑

Spark编程环境搭建

摘要: 基于Intellij IDEA搭建Spark开发环境搭 基于Intellij IDEA搭建Spark开发环境搭——参考文档 ● 参考文档http://spark.apache.org/docs/latest/programming-guide.html ● 操作步骤 a)创建maven 项目 b)引 阅读全文
posted @ 2019-01-20 14:11 风有衡 阅读(182) 评论(0) 推荐(0) 编辑