2020 年 8月随笔档案 - 秋华

摘要：1 安装ZK 集群规划服务器hadoop102 服务器hadoop103 服务器hadoop104 Zookeeper Zookeeper Zookeeper Zookeeper 2.2 ZK集群启动停止脚本 1）在hadoop102的/home/atguigu/bin目录下创建脚本 [atgui 阅读全文

posted @ 2020-08-14 20:27 秋华编辑

互联网商业数据分析（三十五）：产品分析（四）产品不同阶段的分析以及产品分析全流程（二）产品新功能上线指标监测体系搭建

摘要：阅读全文

posted @ 2020-08-13 14:47 秋华编辑

互联网商业数据分析（三十四）：产品分析（三）产品不同阶段的分析以及产品分析全流程（一）竞品分析

摘要：阅读全文

posted @ 2020-08-13 14:29 秋华编辑

互联网商业数据分析（三十三）：产品分析（二）常见指标

摘要：阅读全文

posted @ 2020-08-13 12:06 秋华编辑

互联网商业数据分析（三十二）：产品分析（一）简介

摘要：阅读全文

posted @ 2020-08-13 11:55 秋华编辑

互联网商业数据分析（三十一）：运营分析（七）效果评估

摘要：阅读全文

posted @ 2020-08-13 11:23 秋华编辑

互联网商业数据分析（三十）：运营分析（六）监测与诊断（二）

摘要：阅读全文

posted @ 2020-08-13 11:08 秋华编辑

互联网商业数据分析（二十九）：运营分析（五）监测与诊断（一）

摘要：阅读全文

posted @ 2020-08-12 23:26 秋华编辑

互联网商业数据分析（二十八）：运营分析（四）流程梳理

摘要：阅读全文

posted @ 2020-08-12 23:13 秋华编辑

互联网商业数据分析（二十七）：运营分析（三）用户分层

摘要：step1 step2 step3 阅读全文

posted @ 2020-08-12 22:44 秋华编辑

互联网商业数据分析（二十六）：运营分析（二）运营常用指标

摘要：阅读全文

posted @ 2020-08-12 22:32 秋华编辑

互联网商业数据分析（二十五）：运营分析（一）概述

摘要：阅读全文

posted @ 2020-08-12 21:39 秋华编辑

flink（七）电商用户行为分析（七）订单支付实时监控之订单超时、订单交易匹配

摘要：1 简介在电商网站中，订单的支付作为直接与营销收入挂钩的一环，在业务流程中非常重要。对于订单而言，为了正确控制业务流程，也为了增加用户的支付意愿，网站一般会设置一个支付失效时间，超过一段时间不支付的订单就会被取消。另外，对于订单的支付，我们还应保证用户支付的正确性，这可以通过第三方支付平台的交阅读全文

posted @ 2020-08-12 18:01 秋华编辑

flink（六）电商用户行为分析（六）恶意登录监控之连续登陆超时

摘要：1 模块创建和数据准备继续在 UserBehaviorAnalysis 下新建一个 maven module 作为子项目，命名为LoginFailDetect。在这个子模块中，我们将会用到 flink 的 CEP 库来实现事件流的模式匹配，所以需要在 pom 文件中引入 CEP 的相关依赖： < 阅读全文

posted @ 2020-08-12 17:43 秋华编辑

flink（五）电商用户行为分析（五）市场营销商业指标统计分析之市场推广统计、广告点击量统计、黑名单过滤

摘要：1 模块创建和数据准备继续在 UserBehaviorAnalysis 下新建一个 maven module 作为子项目，命名为MarketAnalysis。这个模块中我们没有现成的数据，所以会用自定义的测试源来产生测试数据流，或者直接用生成测试数据文件。 2 APP 市场推广统计随着智能手机阅读全文

posted @ 2020-08-12 17:29 秋华编辑

flink（四）电商用户行为分析（四）实时流量统计（二）网站独立访客数（UV）

摘要：网站独立访客数（UV）的统计另外一个统计流量的重要指标是网站的独立访客数（Unique Visitor，UV）。UV指的是一段时间（比如一小时）内访问网站的总人数，1 天内同一访客的多次访问只记录为一个访客。通过 IP 和 cookie 一般是判断 UV 值的两种方式。当客户端第一次访问某个网站阅读全文

posted @ 2020-08-12 16:49 秋华编辑

flink（三）电商用户行为分析（三）实时流量统计（一）热门页面浏览量、网站总浏览量

摘要：1 模块创建和数据准备在 UserBehaviorAnalysis 下新建一个 maven module 作为子项目，命名为NetworkFlowAnalysis。在这个子模块中，我们同样并没有引入更多的依赖，所以也不需要改动 pom 文件。在 src/main/目录下阅读全文

posted @ 2020-08-12 16:21 秋华编辑

flink（二）电商用户行为分析（二）实时热门商品统计（计算最热门 Top N 商品）

摘要：1.简介首先要实现的是实时热门商品统计，我们将会基于 UserBehavior 数据集来进行分析。项目主体用 Scala 编写，采用 IDEA 作为开发环境进行项目编写，采用 maven作为项目构建和管理工具。首先我们需要搭建项目框架。 2 创建 Maven 项目 2.1 项目框架搭建打开 I 阅读全文

posted @ 2020-08-12 16:01 秋华编辑

flink（一）电商用户行为分析（一）项目整体介绍

摘要：1 电商的用户行为电商平台中的用户行为频繁且较复杂，系统上线运行一段时间后，可以收集到大量的用户行为数据，进而利用大数据技术进行深入挖掘和分析，得到感兴趣的商业指标并增强对风险的控制。电商用户行为数据多样，整体可以分为用户行为习惯数据和业务行为数据两大类。用户的行为习惯数据包括了用户的登录方式阅读全文

posted @ 2020-08-12 15:13 秋华编辑

Flink基础（十七）：DS简介(16) Flink CEP 简介（二）

摘要：1.什么是 CEP 概念：一个或多个由简单事件构成的事件流通过一定的规则匹配，然后输出用户想得到的数据，满足规则的复杂事件。特征：  目标：从有序的简单事件流中发现一些高阶特征  输入：一个或多个由简单事件构成的事件流  处理：识别简单事件之间的内在联系，多个符合一定规则的简单事件构成复杂阅读全文

posted @ 2020-08-11 11:22 秋华编辑

解决：UserBehavior is already defined as case class UserBehavior

摘要：问题运行Flink scala程序时，提示如下错误，但仔细检查UserBehavior样例类的确仅定义了一次。解决右击重新编译代码，再运行。至于原因还不清楚。阅读全文

posted @ 2020-08-09 20:49 秋华编辑

互联网商业数据分析（二十四）：经营分析（十五）公司级的经营分析（四）经营分析师的典型工作

摘要：阅读全文

posted @ 2020-08-08 20:15 秋华编辑

互联网商业数据分析（二十三）：经营分析（十四）公司级的经营分析（三）经营分析的重要性

摘要：阅读全文

posted @ 2020-08-08 19:48 秋华编辑

互联网商业数据分析（二十二）：经营分析（十三）公司级的经营分析（二）经营分析vs其他分析

摘要：阅读全文

posted @ 2020-08-08 19:31 秋华编辑

互联网商业数据分析（二十一）：经营分析（十二）公司级的经营分析（一）概述

摘要：阅读全文

posted @ 2020-08-08 19:19 秋华编辑

互联网商业数据分析（二十）：经营分析（十一）报表优化

摘要：阅读全文

posted @ 2020-08-08 18:56 秋华编辑

互联网商业数据分析（十九）：经营分析（十）如何做解读

摘要：阅读全文

posted @ 2020-08-08 18:46 秋华编辑

kafka基础：解决org.apache.kafka.common.errors.TimeoutException: Expiring 1 record(s) for xxx topic

摘要：https://my.oschina.net/kyle1970/blog/2396318/print kafka 0.9.x以后的版本，有一个配置属性叫advertised.listeners，在server.properties中，该属性默认是注释掉的，解释如下： #Hostname and po 阅读全文

posted @ 2020-08-07 21:34 秋华编辑

互联网商业数据分析（十八）：经营分析（九）常跟进

摘要：阅读全文

posted @ 2020-08-06 19:26 秋华编辑

互联网商业数据分析（十七）：经营分析（八）天猫佣金收入kpi拆解

摘要：阅读全文

posted @ 2020-08-06 19:00 秋华编辑

互联网商业数据分析（十六）：经营分析（七）爱奇艺收入kpi拆解

摘要：阅读全文

posted @ 2020-08-06 16:40 秋华编辑

互联网商业数据分析（十五）：经营分析（六）如何进行经营分析

摘要：阅读全文

posted @ 2020-08-06 16:28 秋华编辑

互联网商业数据分析（十四）：经营分析（五）成本与用户规模

摘要：阅读全文

posted @ 2020-08-06 16:11 秋华编辑

互联网商业数据分析（十三）：经营分析（四）收入的四种模式（二）

摘要：阅读全文

posted @ 2020-08-06 15:29 秋华编辑

互联网商业数据分析（十二）：经营分析（三）收入的四种模式（一）

摘要：阅读全文

posted @ 2020-08-06 15:20 秋华编辑

互联网商业数据分析（十一）：经营分析（二) 经营分析的关注点有哪些？

摘要：阅读全文

posted @ 2020-08-06 14:54 秋华编辑

互联网商业数据分析（十）：经营分析（一）导读

摘要：阅读全文

posted @ 2020-08-06 14:51 秋华编辑

互联网商业数据分析（九）：问题诊断框架

摘要：阅读全文

posted @ 2020-08-06 13:46 秋华编辑

互联网商业数据分析（八）：商业分析师的三大技能（三）重指标

摘要：阅读全文

posted @ 2020-08-06 11:52 秋华编辑

互联网商业数据分析（七）：商业分析师的三大技能（二）会拆解

摘要：阅读全文

posted @ 2020-08-06 11:25 秋华编辑

Scala 基础（十七）:Scala 使用IDEA开发

摘要：工具进入IDEA，安装Scala插件，或者自己导入插件方法1：方法2： 4.点击 ok->apply -> 重启 idea 即可开发步骤 1：file->new project -> 选择 maven 步骤 2. 步骤 3. 步骤 4：默认下，maven 不支持 scala 的开发，需要引阅读全文

posted @ 2020-08-06 01:48 秋华编辑

互联网商业数据分析（六）：商业分析师的三大技能（一）懂业务

摘要：阅读全文

posted @ 2020-08-05 21:40 秋华编辑

互联网商业数据分析（五）：商业分析师进阶路线

摘要：阅读全文

posted @ 2020-08-05 16:39 秋华编辑

互联网商业数据分析（四）：商业分析师的能力要求

摘要：阅读全文

posted @ 2020-08-05 16:01 秋华编辑

互联网商业数据分析（三）：为什么要学习商业分析

摘要：阅读全文

posted @ 2020-08-05 15:53 秋华编辑

互联网商业数据分析（二）：商业分析是什么

摘要：阅读全文

posted @ 2020-08-05 15:44 秋华编辑

互联网商业数据分析（一）：商业分析导论

摘要：阅读全文

posted @ 2020-08-05 13:11 秋华编辑

Flink基础（十六）：Table API 和 Flink SQL（一）整体介绍

摘要：什么是Table API和Flink SQL Flink本身是批流统一的处理框架，所以Table API和SQL，就是批流统一的上层处理API。目前功能尚未完善，处于活跃的开发阶段。 Table API是一套内嵌在Java和Scala语言中的查询API，它允许我们以非常直观的方式，组合来自一些关系运阅读全文

posted @ 2020-08-04 14:45 秋华编辑

Flink基础（十五）：DS简介(15) Flink CEP简介(一)

摘要：什么是复杂事件CEP？一个或多个由简单事件构成的事件流通过一定的规则匹配，然后输出用户想得到的数据，满足规则的复杂事件。特征：目标：从有序的简单事件流中发现一些高阶特征输入：一个或多个由简单事件构成的事件流处理：识别简单事件之间的内在联系，多个符合一定规则的简单事件构成复杂事件输出：满足阅读全文

posted @ 2020-08-04 14:23 秋华编辑

Flink基础（十四）：DS简介(14) 搭建Flink运行流式应用

摘要：1 部署方式 1.1 独立集群独立集群包含至少一个master进程，以及至少一个TaskManager进程，TaskManager进程运行在一台或者多台机器上。所有的进程都是JVM进程。下图展示了独立集群的部署。 master进程在不同的线程中运行了一个Dispatcher和一个ResourceM 阅读全文

posted @ 2020-08-04 14:03 秋华编辑

Flink基础（十三）：DS简介(13) 读写外部系统

摘要：0 简介数据可以存储在不同的系统中，例如：文件系统，对象存储系统（OSS），关系型数据库，Key-Value存储，搜索引擎索引，日志系统，消息队列，等等。每一种系统都是给特定的应用场景设计的，在某一个特定的目标上超越了其他系统。今天的数据架构，往往包含着很多不同的存储系统。在将一个组件加入到我们的阅读全文

posted @ 2020-08-04 12:25 秋华编辑

Flink基础（十二）：DS简介(12) 有状态算子和应用

摘要：状态操作符和用户自定义函数都是我们在写流处理程序时，常用的工具。事实上，大部分稍微复杂一点的逻辑都需要保存数据或者保存计算结果。很多Flink内置的操作符例如：source操作符，sink操作符等等都是有状态的，也就是说会缓存流数据或者计算结果。例如，窗口操作符将会为ProcessWindowFun 阅读全文

posted @ 2020-08-04 11:51 秋华编辑

Flink基础（十一）：DS简介(11) 基于时间和窗口的操作符（三）

摘要：1 基于时间的双流Join 数据流操作的另一个常见需求是对两条数据流中的事件进行联结（connect）或Join。Flink DataStream API中内置有两个可以根据时间条件对数据流进行Join的算子：基于间隔的Join和基于窗口的Join。本节我们会对它们进行介绍。如果Flink内置的J 阅读全文

posted @ 2020-08-04 11:34 秋华编辑

Flink基础（十）：DS简介(10) 基于时间和窗口的操作符（二）

摘要：1 窗口操作符窗口操作是流处理程序中很常见的操作。窗口操作允许我们在无限流上的一段有界区间上面做聚合之类的操作。而我们使用基于时间的逻辑来定义区间。窗口操作符提供了一种将数据放进一个桶，并根据桶中的数据做计算的方法。例如，我们可以将事件放进5分钟的滚动窗口中，然后计数。无限流转化成有限数据的方法阅读全文

posted @ 2020-08-03 23:21 秋华编辑

Flink基础（九）：DS简介(9) 基于时间和窗口的操作符（一）

摘要：在本章，我们将要学习DataStream API中处理时间和基于时间的操作符，例如窗口操作符。首先，我们会学习如何定义时间属性，时间戳和水位线。然后我们将会学习底层操作process function，它可以让我们访问时间戳和水位线，以及注册定时器事件。接下来，我们将会使用Flink的window 阅读全文

posted @ 2020-08-03 22:24 秋华编辑

Flink基础（八）：DS简介(8) Flink DataStream API（三）

摘要：1 设置并行度 Flink应用程序在一个像集群这样的分布式环境中并行执行。当一个数据流程序提交到作业管理器执行时，系统将会创建一个数据流图，然后准备执行需要的操作符。每一个操作符将会并行化到一个或者多个任务中去。每个算子的并行任务都会处理这个算子的输入流中的一份子集。一个算子并行任务的个数叫做算子的阅读全文

posted @ 2020-08-03 21:34 秋华编辑

Flink基础（七）：DS简介(7) Flink DataStream API（二）

摘要：1 产生传感器读数代码编写（读取数据源） 1.1 从批读取数据 scala version val stream = env .fromElements( SensorReading("sensor_1", 1547718199, 35.80018327300259), SensorReading( 阅读全文

posted @ 2020-08-03 21:14 秋华编辑

Flink基础（六）：DS简介(6) Flink DataStream API（一）

摘要：本章介绍了Flink DataStream API的基本知识。我们展示了典型的Flink流处理程序的结构和组成部分，还讨论了Flink的类型系统以及支持的数据类型，还展示了数据和分区转换操作。窗口操作符，基于时间语义的转换操作，有状态的操作符，以及和外部系统的连接器将在接下来的章节进行介绍。阅读完这阅读全文

posted @ 2020-08-03 20:49 秋华编辑

Flink基础（五）：DS简介(5) 开发环境准备以及编写第一个Flink程序

摘要：1 在IDEA中编写Flink程序 Scala版Flink程序编写本项目使用的Flink版本为最新版本，也就是1.11.0。现在提供maven项目的配置文件。使用Intellij IDEA创建一个Maven新项目勾选Create from archetype，然后点击Add Archetype 阅读全文

posted @ 2020-08-03 19:54 秋华编辑

Flink基础（四）：DS简介(4) Flink 运行架构

摘要：1 系统架构 Flink是一个用于有状态的并行数据流处理的分布式系统。它由多个进程构成，这些进程一般会分布运行在不同的机器上。对于分布式系统来说，面对的常见问题有：集群中资源的分配和管理、进程协调调度、持久化和高可用的数据存储，以及故障恢复。对于这些分布式系统的经典问题，业内已有比较成熟的解决方案阅读全文

posted @ 2020-08-03 18:54 秋华编辑

Flink基础（三）：DS简介(3) 流处理基础

摘要：1 数据流编程简介在我们深入研究流处理的基础知识之前，让我们来看看在数据流程编程的背景和使用的术语。 1.1 数据流图顾名思义，数据流程序描述了数据如何在算子之间流动。数据流程序通常表示为有向图，其中节点称为算子，用来表示计算，边表示数据之间的依赖性。算子是数据流程序的基本功能单元。他们从输入消阅读全文

posted @ 2020-08-03 17:39 秋华编辑

Flink基础（二）：DS简介(2) Flink简介

摘要：1 初识 Flink Flink 项目的理念是：“Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架”。 Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行，以内存执阅读全文

posted @ 2020-08-03 17:24 秋华编辑

Flink基础（一）：DS简介(1) 有状态的流式处理简介

摘要：0 简介 Apache Flink是一个分布式流处理器，具有直观和富有表现力的API，可实现有状态的流处理应用程序。它以容错的方式有效地大规模运行这些应用程序。 Flink于2014年4月加入Apache软件基金会作为孵化项目，并于2015年1月成为顶级项目。从一开始，Flink就拥有一个非常活跃且阅读全文

posted @ 2020-08-03 17:16 秋华编辑

秋华

08 2020 档案

公告

随笔分类

随笔档案