大数据.计算.分析 - 随笔分类 - 七号楼

CDP客户数据管理平台体系化搭建

摘要：

客户数据平台(Customer-Data-Platform)，简称CDP；通过采集多方客户数据(主体与线索)等，从而进行精准的客户分析和人群细分，进而实现高效的客户维系和发掘以及日常营销运营。阅读全文

posted @ 2021-11-02 08:28 七号楼阅读(1309) 评论(0) 推荐(1) 编辑

数据服务基础能力之元数据管理

摘要：

定义上说，元数据(Metadata)即描述数据的数据，但是在实际使用的时候，还是存在很多细分的概念，从本质上看元数据，介于系统和业务中间，提供双方都能明白的语义和逻辑，可以更加高效的支撑数据的业务价值。阅读全文

posted @ 2021-10-18 23:10 七号楼阅读(617) 评论(0) 推荐(0) 编辑

数据管理：业务数据清洗，落地实现方案

摘要：

业务数据清洗本质上理解起来并不难，即读取待清洗的数据源，经过清洗服务规范化处理后，再把数据放到指定的数据源。阅读全文

posted @ 2021-06-09 08:13 七号楼阅读(1856) 评论(0) 推荐(1) 编辑

实时计算框架：Flink集群搭建与运行机制

摘要：

Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。阅读全文

posted @ 2021-05-09 19:32 七号楼阅读(1321) 评论(0) 推荐(0) 编辑

实时计算框架：Spark集群搭建与入门案例

摘要：

Spark是专为大规模数据处理而设计的，基于内存快速通用,可扩展的集群计算引擎，实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。阅读全文

posted @ 2021-04-26 08:31 七号楼阅读(968) 评论(0) 推荐(0) 编辑

OLAP引擎：基于Presto组件进行跨数据源分析

摘要：

Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节，Presto虽然具备解析SQL的能力，但它并不属于标准的数据库范畴。阅读全文

posted @ 2021-04-18 12:52 七号楼阅读(824) 评论(0) 推荐(0) 编辑

OLAP引擎：基于Druid组件进行数据统计分析

摘要：

Druid是一款基于分布式架构的OLAP引擎，支持数据写入、低延时、高性能的数据分析，具有优秀的数据聚合能力与实时查询能力。阅读全文

posted @ 2021-04-05 11:07 七号楼阅读(647) 评论(0) 推荐(0) 编辑

数据调度组件：基于Azkaban协调时序任务执行

摘要：

Azkaban是由Linkedin公司推出的可以管理批量工作流任务的调度器，用于在一个工作流内以一个特定的顺序运行一组工作和流程。阅读全文

posted @ 2021-03-30 08:25 七号楼阅读(607) 评论(0) 推荐(0) 编辑

数据搬运组件：基于Sqoop管理数据导入和导出

摘要：

Sqoop是一款开源的大数据组件，主要用来在Hadoop(Hive、HBase等)与传统的数据库(mysql、postgresql、oracle等)间进行数据的传递。阅读全文

posted @ 2021-03-15 08:38 七号楼阅读(480) 评论(0) 推荐(0) 编辑

数据采集组件：Flume基础用法和Kafka集成

摘要：

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。阅读全文

posted @ 2021-03-05 09:00 七号楼阅读(600) 评论(0) 推荐(0) 编辑

基于业务和平台理解数字营销概念

摘要：数字营销产业链上最核心的角色就是就是受众人群，即浏览广告的用户，之所以称为受众人群，通常会把用户按照画像特点基于标签进行人群分类，根据广告的需求，可能是根据不同年龄段，地域，消费能力等各种标签。阅读全文

posted @ 2021-01-18 22:29 七号楼阅读(782) 评论(0) 推荐(0) 编辑

用户画像分析与场景应用

摘要：用户画像，作为一种勾画目标用户、联系用户诉求与设计方向的有效工具，用户画像在各领域得到了广泛的应用。阅读全文

posted @ 2021-01-14 23:22 七号楼阅读(2045) 评论(0) 推荐(0) 编辑

数据仓库组件：HBase集群环境搭建和应用案例

摘要：HBase是一种分布式、可扩展、支持海量结构化数据存储的NoSQL数据库。HBase在Hadoop之上提供了类似于Bigtable的能力，基于列存储模式的而不是基于行的模式。阅读全文

posted @ 2021-01-11 08:01 七号楼阅读(612) 评论(0) 推荐(0) 编辑

标签管理体系之业务应用

摘要：通过在标签的使用过程分析和评估，不断优化标签的质量，形成完整的管理周期，这样才能发挥更高的业务价值。阅读全文

posted @ 2021-01-05 22:52 七号楼阅读(356) 评论(0) 推荐(0) 编辑

数据仓库组件：Hive环境搭建和基础用法

摘要：Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，是一个可以对Hadoop中的大规模存储的数据进行查询和分析存储的组件。阅读全文

posted @ 2021-01-04 08:00 七号楼阅读(921) 评论(0) 推荐(0) 编辑

数据应用场景之标签管理体系

摘要：标签最初用来对实物进行分类和标记，例如标明物品的品名、重量、体积、用途等简要信息。后来逐渐流行到数据行业，用来标记数据，对数据快速分类获取和分析。阅读全文

posted @ 2020-12-30 23:50 七号楼阅读(2872) 评论(0) 推荐(1) 编辑

数据全景洞察概念简介

摘要：智能数字时代，数据不论形态、格式和类型，已经迅速成为企业最有战略意义的资产；数据资产已经成为了可以形成业务洞察及优势的战略资源，数据的体量、多样性和复杂性也正以指数级增长。阅读全文

posted @ 2020-12-26 22:05 七号楼阅读(332) 评论(0) 推荐(0) 编辑

业务场景下数据采集机制和策略

摘要：用户数据来衡量用户或者产品的各方面纬度是最具有说服力的，所以在互联网的产品后期开发和优化过程中，对数据的采集和管理一直都是非常重要操作。阅读全文

posted @ 2020-12-15 23:27 七号楼阅读(836) 评论(0) 推荐(0) 编辑

Hadoop框架：Yarn基本结构和运行原理

摘要：Hadoop三大核心组件：分布式文件系统HDFS、分布式计算框架MapReduce，分布式集群资源调度框架Yarn。阅读全文

posted @ 2020-12-13 16:44 七号楼阅读(552) 评论(0) 推荐(0) 编辑

数据管理流程，基础入门简介

摘要：数据在现在互联网的行业中可以说是最核心的话题，数据的价值已经被称为资产了，大部分的互联网应用都会源源不断的产生各种数据，如何管理和使用这些数据，让这些看似平常的数据产生更大的价值，一直是热门的探索领域。阅读全文

posted @ 2020-12-08 21:56 七号楼阅读(936) 评论(0) 推荐(1) 编辑

七号楼

程序可以重启，那生活呢？

随笔分类 - 大数据.计算.分析

公告

微信公众号：七号楼

搜索

常用链接

随笔分类

阅读排行榜

评论排行榜

推荐排行榜