随笔分类 -  大数据.计算.分析

Spark家族生态圈,Scala编程语言。
摘要:CDP客户数据管理平台体系化搭建客户数据平台(Customer-Data-Platform),简称CDP;通过采集多方客户数据(主体与线索)等,从而进行精准的客户分析和人群细分,进而实现高效的客户维系和发掘以及日常营销运营。 阅读全文
posted @ 2021-11-02 08:28 七号楼 阅读(1309) 评论(0) 推荐(1) 编辑
摘要:数据服务基础能力之元数据管理定义上说,元数据(Metadata)即描述数据的数据,但是在实际使用的时候,还是存在很多细分的概念,从本质上看元数据,介于系统和业务中间,提供双方都能明白的语义和逻辑,可以更加高效的支撑数据的业务价值。 阅读全文
posted @ 2021-10-18 23:10 七号楼 阅读(617) 评论(0) 推荐(0) 编辑
摘要:数据管理:业务数据清洗,落地实现方案业务数据清洗本质上理解起来并不难,即读取待清洗的数据源,经过清洗服务规范化处理后,再把数据放到指定的数据源。 阅读全文
posted @ 2021-06-09 08:13 七号楼 阅读(1856) 评论(0) 推荐(1) 编辑
摘要:实时计算框架:Flink集群搭建与运行机制Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。 阅读全文
posted @ 2021-05-09 19:32 七号楼 阅读(1321) 评论(0) 推荐(0) 编辑
摘要:实时计算框架:Spark集群搭建与入门案例Spark是专为大规模数据处理而设计的,基于内存快速通用,可扩展的集群计算引擎,实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。 阅读全文
posted @ 2021-04-26 08:31 七号楼 阅读(968) 评论(0) 推荐(0) 编辑
摘要:OLAP引擎:基于Presto组件进行跨数据源分析Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节,Presto虽然具备解析SQL的能力,但它并不属于标准的数据库范畴。 阅读全文
posted @ 2021-04-18 12:52 七号楼 阅读(824) 评论(0) 推荐(0) 编辑
摘要:OLAP引擎:基于Druid组件进行数据统计分析Druid是一款基于分布式架构的OLAP引擎,支持数据写入、低延时、高性能的数据分析,具有优秀的数据聚合能力与实时查询能力。 阅读全文
posted @ 2021-04-05 11:07 七号楼 阅读(647) 评论(0) 推荐(0) 编辑
摘要:数据调度组件:基于Azkaban协调时序任务执行Azkaban是由Linkedin公司推出的可以管理批量工作流任务的调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。 阅读全文
posted @ 2021-03-30 08:25 七号楼 阅读(607) 评论(0) 推荐(0) 编辑
摘要:数据搬运组件:基于Sqoop管理数据导入和导出Sqoop是一款开源的大数据组件,主要用来在Hadoop(Hive、HBase等)与传统的数据库(mysql、postgresql、oracle等)间进行数据的传递。 阅读全文
posted @ 2021-03-15 08:38 七号楼 阅读(480) 评论(0) 推荐(0) 编辑
摘要:数据采集组件:Flume基础用法和Kafka集成Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 阅读全文
posted @ 2021-03-05 09:00 七号楼 阅读(600) 评论(0) 推荐(0) 编辑
摘要:数字营销产业链上最核心的角色就是就是受众人群,即浏览广告的用户,之所以称为受众人群,通常会把用户按照画像特点基于标签进行人群分类,根据广告的需求,可能是根据不同年龄段,地域,消费能力等各种标签。 阅读全文
posted @ 2021-01-18 22:29 七号楼 阅读(782) 评论(0) 推荐(0) 编辑
摘要:用户画像,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。 阅读全文
posted @ 2021-01-14 23:22 七号楼 阅读(2045) 评论(0) 推荐(0) 编辑
摘要:HBase是一种分布式、可扩展、支持海量结构化数据存储的NoSQL数据库。HBase在Hadoop之上提供了类似于Bigtable的能力,基于列存储模式的而不是基于行的模式。 阅读全文
posted @ 2021-01-11 08:01 七号楼 阅读(612) 评论(0) 推荐(0) 编辑
摘要:通过在标签的使用过程分析和评估,不断优化标签的质量,形成完整的管理周期,这样才能发挥更高的业务价值。 阅读全文
posted @ 2021-01-05 22:52 七号楼 阅读(356) 评论(0) 推荐(0) 编辑
摘要:Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,是一个可以对Hadoop中的大规模存储的数据进行查询和分析存储的组件。 阅读全文
posted @ 2021-01-04 08:00 七号楼 阅读(921) 评论(0) 推荐(0) 编辑
摘要:标签最初用来对实物进行分类和标记,例如标明物品的品名、重量、体积、用途等简要信息。后来逐渐流行到数据行业,用来标记数据,对数据快速分类获取和分析。 阅读全文
posted @ 2020-12-30 23:50 七号楼 阅读(2872) 评论(0) 推荐(1) 编辑
摘要:智能数字时代,数据不论形态、格式和类型,已经迅速成为企业最有战略意义的资产;数据资产已经成为了可以形成业务洞察及优势的战略资源,数据的体量、多样性和复杂性也正以指数级增长。 阅读全文
posted @ 2020-12-26 22:05 七号楼 阅读(332) 评论(0) 推荐(0) 编辑
摘要:用户数据来衡量用户或者产品的各方面纬度是最具有说服力的,所以在互联网的产品后期开发和优化过程中,对数据的采集和管理一直都是非常重要操作。 阅读全文
posted @ 2020-12-15 23:27 七号楼 阅读(836) 评论(0) 推荐(0) 编辑
摘要:Hadoop三大核心组件:分布式文件系统HDFS、分布式计算框架MapReduce,分布式集群资源调度框架Yarn。 阅读全文
posted @ 2020-12-13 16:44 七号楼 阅读(552) 评论(0) 推荐(0) 编辑
摘要:数据在现在互联网的行业中可以说是最核心的话题,数据的价值已经被称为资产了,大部分的互联网应用都会源源不断的产生各种数据,如何管理和使用这些数据,让这些看似平常的数据产生更大的价值,一直是热门的探索领域。 阅读全文
posted @ 2020-12-08 21:56 七号楼 阅读(936) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示