大数据 - 随笔分类 - duanxz

用户标签实践：如何建立标签体系实现精准营销？

摘要：一、思考的背景从16年开始，互联网用户增长趋缓，同比仅增长。一方面，不论是线上还是线下，新用户的获取成本都很高。另一方面，用户时间增长也在趋缓。在用户花费时间趋向饱和情况下，不同的产品之间同样存在竞争关系。在这个背景下，随着用户量增长，运营人员面临新的挑战，有以下核心诉求：一般运营活动中，怎么阅读全文

posted @ 2020-04-10 09:55 duanxz 阅读(1527) 评论(0) 推荐(1) 编辑

批量计算和流式计算

摘要：一、数据集类型现实世界中，所有的数据都是以流式的形态产生的，不管是哪里产生的数据，在产生的过程中都是一条条地生成，最后经过了存储和转换处理，形成了各种类型的数据集。如下图所示，根据现实的数据产生方式和数据产生是否含有边界（具有起始点和终止点）角度，将数据分为两种类型的数据集，一种是有界数据集，另外阅读全文

posted @ 2020-04-01 10:48 duanxz 阅读(10508) 评论(0) 推荐(0) 编辑

Impala和Hive的关系（详解）

摘要：Impala和Hive的关系 Impala是基于Hive的大数据实时分析查询引擎，直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析，实现了Hive的SQL语义的子集，功能还在不断的完善中。与Hive 阅读全文

posted @ 2020-03-30 13:56 duanxz 阅读(5380) 评论(0) 推荐(0) 编辑

数据模型

摘要：一、概述 1.什么是数据模型？数据模型就是数据的组织和存储方法。主要关注的是从业务、数据存取和使用角度合理存储数据。 2.典型数据仓库建模方法论 ER模型纬度模型（建模四步曲：确定业务流程->确定粒度->确定纬度->确定事实表）二、阿里巴巴数据整合管理体系oneData 1.体系架构核心内容阅读全文

posted @ 2020-03-30 11:39 duanxz 阅读(3293) 评论(0) 推荐(0) 编辑

Flume NG 配置详解

摘要：配置设置代理 Flume代理配置存储在本地配置文件。这是一个文本文件格式，是Java属性文件格式。在相同的配置文件，可以指定一个或多个代理的配置。配置文件包括每个源，接收器和通道，把它们连接在一起，形成数据流。配置单个组件流中每个组件（源，接收器或通道）都有名称，类型，和一组特定实... 阅读全文

posted @ 2015-11-28 14:37 duanxz 阅读(1020) 评论(0) 推荐(0) 编辑

FLUME日志收集

摘要：一、FLUME介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。设计目标：(1) 可靠性当节点出现故障时，日志能够被传送到其他节点上而不会丢失。Flume提供了三... 阅读全文

posted @ 2015-11-27 23:44 duanxz 阅读(1725) 评论(0) 推荐(0) 编辑

flume+kafka+storm+mysql架构设计

摘要：前段时间学习了storm，最近刚开blog，就把这些资料放上来供大家参考。这个框架用的组件基本都是最新稳定版本，flume-ng1.4+kafka0.8+storm0.9+mysql （项目是maven项目，需要改动mysql配置，提供两种topology：读取本地文件（用来本地测试）；读取服务器阅读全文

posted @ 2015-11-26 20:24 duanxz 阅读(1620) 评论(0) 推荐(0) 编辑

研究车联网的大数据更有意义

摘要：随着互联网的不断发展，大数据正在成为一股热潮，且业界对大数据的讨论已达到一个前所未有的高峰。车联网作为移动互联网大背景下诞生的一个产物，不管是车辆的接入、服务内容的选择还是服务的精准性，都离不开大数据。车辆上传的每一组数据都带有位置信息和时间，并且很容易形成海量数据。一方面，如果说大数据的特征是完整... 阅读全文

posted @ 2015-10-10 09:55 duanxz 阅读(1219) 评论(0) 推荐(0) 编辑

数据建模及常见分类算法

摘要：数据建模指的是对现实世界各类数据的抽象组织，建立一个适合的模型对数据进行处理。建模数据的抽取，清洗和加工以及建模算法的训练和优化会涉及大量的计算机语言和技术。比如：数据查询语言SQL；数据环境Hadoop和Spark；数据操作系统Linux；数据分析软件R、Python、SAS、Matlab等。阅读全文

posted @ 2015-10-09 16:57 duanxz 阅读(3533) 评论(0) 推荐(0) 编辑

大数据建模五步法

摘要：from：https://www.sohu.com/a/198093510_783844 前一阵子，某网络公司发起了一个什么建模大赛，有个学员问我，数据建模怎么搞？为了满足他的好学精神，我决定写这一篇文章，来描述一下数据分析必须要掌握的技能：数据建模。本文将尝试来梳理一下数据建模的步骤，以及每一阅读全文

posted @ 2015-10-09 09:00 duanxz 阅读(4146) 评论(0) 推荐(0) 编辑

即席查询

摘要：即席查询（Ad Hoc）是用户根据自己的需求，灵活的选择查询条件，系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的，而即席查询是由用户自定义查询条件的。浅析即席查询　在数据仓库领域有一个概念叫Ad hoc queries，中文一般翻译为“即席查询... 阅读全文

posted @ 2014-10-22 23:55 duanxz 阅读(1850) 评论(0) 推荐(1) 编辑

Zookeeper全解析——Paxos作为灵魂(转)

摘要：原计划在介绍完ZK Client之后就着手ZK Server的介绍，但是发现ZK Server所包含的内容实在太多，并不是简简单单一篇Blog就能搞定的。于是决定从基础搞起比较好。那么ZK Server最基础的东西是什么呢？我想应该是Paxos了。所以本文会介绍Paxos以及它在ZK Server 阅读全文

posted @ 2014-06-13 18:00 duanxz 阅读(306) 评论(0) 推荐(0) 编辑

zookeeper系列之通信模型(转)

摘要：本文的主题就是讲解Zookeeper通信模型，本节将通过一个概要图来说明Zookeeper的通信模型。 Zookeeper的通信架构在Zookeeper整个系统中，有3中角色的服务，client、Follower、leader。其中client负责发起应用的请求，Follower接受client发阅读全文

posted @ 2014-06-13 18:00 duanxz 阅读(516) 评论(0) 推荐(0) 编辑

zk 04之 Zookeeper Api(java)与应用

摘要：如何使用 Zookeeper 作为一个分布式的服务框架，主要用来解决分布式集群中应用系统的一致性问题，它能提供基于类似于文件系统的目录节点树方式的数据存储，但是 Zookeeper 并不是用来专门存储数据的，它的作用主要是用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化，从而可以达到阅读全文

posted @ 2014-06-13 17:59 duanxz 阅读(1197) 评论(0) 推荐(0) 编辑

ZooKeeper典型应用场景(转)

摘要：ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的阅读全文

posted @ 2014-06-13 17:59 duanxz 阅读(485) 评论(0) 推荐(0) 编辑

Flink初探-为什么选择Flink

摘要：本文主要记录一些关于Flink与storm,spark的区别, 优势, 劣势, 以及为什么这么多公司都转向Flink. What Is Flink 一个通俗易懂的概念: Apache Flink 是近年来越来越流行的一款开源大数据计算引擎，它同时支持了批处理和流处理.这是对Flink最简单的认识, 阅读全文

posted @ 2014-04-02 09:18 duanxz 阅读(1107) 评论(0) 推荐(0) 编辑

随笔分类 - 大数据

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论