2020 年 9月随笔档案 - 大码王

大数据运维（41）kafka 2.3.0集群部署

摘要：安装kafka之前先安装zookeeper。配置DNS解析： 1 2 3 4 5 6 7 8 9 10 cat > /etc/hosts <<EOF 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomai 阅读全文

posted @ 2020-09-29 11:13 大码王阅读(203) 评论(0) 推荐(0) 编辑

大数据运维（40）ElasticSearch安装ik中文分词器

摘要：官方文档： 1 https://github.com/medcl/elasticsearch-analysis-ik 创建目录： 1 2 cd xxx/plugins/ mkdir ik 查看版本： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 # curl -XGET loca 阅读全文

posted @ 2020-09-28 18:00 大码王阅读(139) 评论(0) 推荐(0) 编辑

大数据运维（39）Kylin 3.1.0集群部署

摘要：安装kylin之前先安装如下： Hadoop: 2.7+, 3.1+ (since v2.5) Hive: 0.13 - 1.2.1+ HBase: 1.1+, 2.0 (since v2.5) Spark (可选) 2.3.0+ Kafka (可选) 1.0.0+ (since v2.5) JDK 阅读全文

posted @ 2020-09-28 17:59 大码王阅读(457) 评论(0) 推荐(0) 编辑

大数据运维（38）Flink 1.11.1部署安装

摘要：安装Flink之前先安装hadoop集群。 Flink下载： https://flink.apache.org/downloads.html https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.11.1/flink-1.11.1-bin 阅读全文

posted @ 2020-09-28 17:32 大码王阅读(652) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink（28）Flink 1.11 新特性：流批一体的 Hive 数仓

摘要：Table/SQL 的 blink planner 成为默认 Planner。 Flink 1.11 中流计算结合 Hive 批处理数仓，给离线数仓带来 Flink 流处理实时且 Exactly-once 的能力。另外，Flink 1.11 完善了 Flink 自身的 Filesystem conn 阅读全文

posted @ 2020-09-28 15:01 大码王阅读(690) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（29）企业级数据仓库构建（十）：搭建 ADS 层

摘要：一、数仓搭建 - ADS 层1.1 设备主题1.1.1 活跃设备数（日、周、月）需求定义：日活：当日活跃的设备数周活：当周活跃的设备数月活：当月活跃的设备数1）建表语句 drop table if exists ads_uv_count; create external table ads_uv_c 阅读全文

posted @ 2020-09-27 14:37 大码王阅读(462) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（28）数仓项目（九）数仓搭建-DWT 层

摘要：2.1 设备主题宽表 1）建表语句 drop table if exists dwt_uv_topic; create external table dwt_uv_topic ( `mid_id` string COMMENT '设备唯一标识', `user_id` string COMMENT ' 阅读全文

posted @ 2020-09-27 13:40 大码王阅读(634) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（27）数仓项目（九）数仓搭建 - DWS 层

摘要：一、数仓搭建 - DWS 层1.1 业务术语1）用户用户以设备为判断标准，在移动统计中，每个独立设备认为是一个独立用户。Android系统根据 IMEI 号，IOS 系统根据 OpenUDID 来标识一个独立用户，每部手机一个用户2）新增用户首次联网使用应用的用户。如果一个用户首次打开某 APP，那阅读全文

posted @ 2020-09-27 13:35 大码王阅读(852) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（26）企业级数据仓库构建（八）：搭建DWD 层-业务数据

摘要：1.1 DWD 层（业务数据）1.1.1 商品维度表（全量表）1）建表语句 DROP TABLE IF EXISTS `dwd_dim_sku_info`; CREATE EXTERNAL TABLE `dwd_dim_sku_info` ( `id` string COMMENT '商品 id', 阅读全文

posted @ 2020-09-23 14:13 大码王阅读(799) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（25）企业级数据仓库构建（七）：搭建DWD 层

摘要：一、数仓搭建 - DWD 层 1）对用户行为数据解析 2）对核心数据进行判空过滤 3）对业务数据采用维度模型重新建模，即维度退化 1.1 DWD 层（用户行为启动表数据解析） 1.1.1 创建启动表 1）建表语句 drop table if exists dwd_start_log; CREATE 阅读全文

posted @ 2020-09-23 14:07 大码王阅读(830) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（24）企业级数据仓库构建（六）：数仓理论及数仓搭建

摘要：一、数仓分层1.1 为什么要分层1.2 数据集市与数据仓库概念1.3 数仓命名规范1.3.1 表命名 ODS层命名为ods_表名 DWD层命名为dwd_dim/fact_表名 DWS层命名为dws_表名 DWT层命名为dwt_购物车 ADS层命名为ads_表名临时表命名为xxx_tmp 用户行为表阅读全文

posted @ 2020-09-22 17:37 大码王阅读(1153) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（23）企业级数据仓库构建（五）：数据仓库项目实战

摘要：一、电商业务简介1.1 电商业务流程1.2 电商常识（SKU、SPU）SKU=Stock Keeping Unit（库存量基本单位）。现在已经被引申为产品统一编号的简称，每种产品均对应有唯一的 SKU 号SPU（Standard Product Unit）：是商品信息聚合的最小单位，是一组可复用、易阅读全文

posted @ 2020-09-22 16:22 大码王阅读(1082) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（22）企业级数据仓库构建（四）：数据仓库项目实战

摘要：总结1）数仓概念总结【1】数据仓库的输入数据源和输出系统分别是什么？输入系统：埋点产生的用户行为数据、JavaEE 后台产生的业务数据输出系统：报表系统、用户画像系统、推荐系统2）项目需求及架构总结【1】集群规模计算【2】框架版本选型1）Apache：运维麻烦，组件间兼容性需要自己调研。（一般大厂使阅读全文

posted @ 2020-09-22 15:33 大码王阅读(660) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（21）企业级数据仓库构建（三）：数据采集模块环境搭建（2）

摘要：5）Flume安装一、Flume概述【1】Flume简介 1）Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统 2）Flume可以采集文件，例如：socket数据包、文件、文件夹、kafka等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、HBase、h 阅读全文

posted @ 2020-09-22 15:30 大码王阅读(612) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（20）企业级数据仓库构建（三）：数据采集模块环境搭建（1）

摘要：一、数据采集模块 Linux基本配置【1】Linux环境搭建 1).修改MAC地址方法1：vim /etc/udev/rules.d/70-persistent-net.rules 删除eth0,将eth1修改为eth0 方法2：rm -rf /etc/udev/rules.d/70-persi 阅读全文

posted @ 2020-09-22 11:37 大码王阅读(708) 评论(1) 推荐(0) 编辑

项目实战从0到1之hive（19）企业级数据仓库构建（二）

摘要：一、数据生成模块1）埋点数据基本格式公共字段：基本所有安卓手机都包含的字段业务（事件）字段：埋点上报的字段，有具体的业务类型示例如下<ignore_js_op>2）示例日志（服务器时间戳 | 日志）如下注意：事件字段包含多个用户行为数据3）事件日志数据【3.1】商品列表页(loading)事件阅读全文

posted @ 2020-09-22 11:06 大码王阅读(335) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（18）企业级数据仓库构建（一）

摘要：一、数据仓库数据仓库（Data Warehouse），是为企业所有决策制定过程，提供所有系统数据支持的战略集合通过对数据仓库中数据的分析，可以帮助企业，改进业务流程、控制成本、提高产品质量等数据仓库，并不是数据的最终目的地，而是为数据最终的目的地做好准备。这些准备包括对数据的：清洗，转义，分类，阅读全文

posted @ 2020-09-22 10:56 大码王阅读(814) 评论(0) 推荐(1) 编辑

大数据运维（37） Hadoop+Hive+HBase+Kylin +spark+Flink伪分布式安装

摘要：问题导读 1.Centos7如何安装配置？ 2.linux网络配置如何进行？ 3.linux环境下java如何安装？ 4.linux环境下SSH免密码登录如何配置？ 5.linux环境下Hadoop2.7如何安装？ 6.linux环境下Mysql如何安装？ 7.linux环境下Hive如何安装？ 8 阅读全文

posted @ 2020-09-17 11:43 大码王阅读(1699) 评论(0) 推荐(1) 编辑

项目实战从0到1之hive（17）hive求新增用户数，日活，留存率

摘要：很简单的sql 用户分析语句：只要自定义简单的udf函数获取统计时间createdatms字段的使用的日历类 add方法和simpledateformat 将long类型的定义多个重载方法获取返回值int类型或者long类型进行时间判断即可 getdaybegin（天开始），比如20 阅读全文

posted @ 2020-09-09 14:17 大码王阅读(1570) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（16）hive求出场率，环比以及共同通话时长

摘要：一、求出场率与出厂次数 1、有如下数据：（建表语句+sql查询） id names 1 aa,bb,cc,dd,ee 2 aa,bb,ff,ww,qq 3 aa,cc,rr,yy 4 aa,bb,dd,oo,pp 2、求英雄的出场排名top3的出场次数及出场率 create table if not 阅读全文

posted @ 2020-09-09 11:43 大码王阅读(559) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（15）hive实现连续三个月学生成绩都为A的记录

摘要：1.数据 s1,201801,A s1,201802,A s1,201803,C s1,201804,A s1,201805,A s1,201806,A s2,201801,A s2,201802,B s2,201803,C s2,201804,A s2,201805,D s2,201806,A s 阅读全文

posted @ 2020-09-09 11:33 大码王阅读(671) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（14）关于hive统计连续的案例

摘要：一:例题1 统计用户连续交易的总额、连续登陆天数、连续登陆开始和结束时间、间隔天数 1.建表: create table deal_tb (id int, daystr varchar(10), amount decimal(10,2)); 2.插入数据: insert into deal_tb 阅读全文

posted @ 2020-09-09 11:25 大码王阅读(1443) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（13）hive经典50题

摘要：一.建表和加载数据 1.student表 create table if not exists student(s_id int,s_name string,s_birth string,s_sex string) row format delimited fields terminated by 阅读全文

posted @ 2020-09-09 11:06 大码王阅读(418) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（12）hive内置函数大全

摘要：Hive常用函数大全一览文章目录 1 关系运算 1.1 1、等值比较: = 1.2 2、不等值比较: 1.3 3、小于比较: < 1.4 4、小于等于比较: <= 1.5 5、大于比较: > 1.6 6、大于等于比较: >= 1.7 7、空值判断: IS NULL 1.8 8、非空判断: IS N 阅读全文

posted @ 2020-09-09 10:27 大码王阅读(464) 评论(0) 推荐(0) 编辑

项目实战从0到1之hive（11）实现手机号码脱敏的udf函数执行过程

摘要：Hive UDFHive UDF 函数1 POM 文件2.UDF 函数3 利用idea打包4 添加hive udf函数4.1 上传jar包到集群4.2 修改集群hdfs文件权限4.3 注册UDF4.4 使用UDF Hive UDF 函数 1、 POM 文件 <?xml version="1.0" e 阅读全文

posted @ 2020-09-09 10:04 大码王阅读(1182) 评论(0) 推荐(0) 编辑

项目实战从0到1之Spark（10）Spark读取HDFS写入Hive

摘要：package com.xxxx.report.service; import com.google.common.collect.Lists; import com.xx.report.config.Constants; import org.apache.spark.api.java.JavaR 阅读全文

posted @ 2020-09-08 17:53 大码王阅读(840) 评论(1) 推荐(0) 编辑

项目实战从0到1之Spark（9）spark读取Oracle数据到hive中

摘要：近期又有需求为：导入Oracle的表到hive库中；关于spark读取Oracle到hive有以下两点需要说明： 1、数据量较小时，可以直接使用spark.read.jdbc(orclUrl,table_name,orclProperties)读取，效率应该没什么问题，能很快完成； 2、数据量较大阅读全文

posted @ 2020-09-08 17:50 大码王阅读(1721) 评论(0) 推荐(0) 编辑

项目实战从0到1之Spark（8）spark读取mongodb数据写入hive表中

摘要：一环境： spark-2.2.0； hive-1.1.0; scala-2.11.8; hadoop-2.6.0-cdh-5.15.0; jdk-1.8;mongodb-2.4.10; 二.数据情况： MongoDB数据格式{ "_id" : ObjectId("5ba0569cafc9ec432 阅读全文

posted @ 2020-09-08 17:44 大码王阅读(1098) 评论(0) 推荐(0) 编辑

项目实战从0到1之Spark（7）读写Redis数据

摘要：@羲凡——只为了更好的活着 Spark2.0 读写Redis数据(scala)——redis5.0.3 特别强调楼主使用spark2.3.2版本，redis5.0.3版本 1.准备工作在pom.xml文件中要添加 <dependency> <groupId>com.redislabs</group 阅读全文

posted @ 2020-09-08 17:42 大码王阅读(3119) 评论(0) 推荐(0) 编辑

项目实战从0到1之Spark（6）Spark 读取mysql中的数据

摘要：Spark（直接读取mysql中的数据）两种方法的目的：进行mysql数据的数据清洗方法一： ①执行 [root@head42 spark]# spark-shell --jars /opt/spark/jars/mysql-connector-java-5.1.38.jar ②执行 val d 阅读全文

posted @ 2020-09-08 17:38 大码王阅读(581) 评论(0) 推荐(0) 编辑

项目实战从0到1之Spark（5）Spark整合Elasticsearch-从ES读取数据

摘要：由于ES集群在拉取数据时可以提供过滤功能，因此在采用ES集群作为spark运算时的数据来源时，根据过滤条件在拉取的源头就可以过滤了（ES提供过滤），就不必像从hdfs那样必须全部加载进spark的内存根据filter算子过滤，费时费力。代码： import org.apache.spark.{Sp 阅读全文

posted @ 2020-09-08 17:34 大码王阅读(1493) 评论(0) 推荐(0) 编辑

项目实战从0到1之Spark（4）SparkSQL读取HBase数据

摘要：这里的SparkSQL是指整合了Hive的spark-sql cli（关于SparkSQL和Hive的整合，见文章后面的参考阅读）. 本质上就是通过Hive访问HBase表，具体就是通过hive-hbase-handler . hadoop-2.3.0-cdh5.0.0 apache-hive-0. 阅读全文

posted @ 2020-09-08 17:31 大码王阅读(1008) 评论(0) 推荐(0) 编辑

项目实战从0到1之Spark（3）spark读取hive数据

摘要：1.首先将集群的这3个文件hive-site.xml，core-size.xml,hdfs-site.xml放到资源文件里(必须，否则报错) 2.代码方面。下面几个测试都可以运行。 1）test03.java import org.apache.spark.sql.SparkSession; imp 阅读全文

posted @ 2020-09-08 17:29 大码王阅读(2285) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之SparkStreaming（27）使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎

摘要：Apache Kafka 是一个可扩展，高性能，低延迟的平台，允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。 Spark Streaming 是 Apache Spark 的一部分，是一个可扩展、高吞吐、容错的实时流处理引擎。虽然是使用 Scala 开发的，阅读全文

posted @ 2020-09-08 17:22 大码王阅读(370) 评论(0) 推荐(0) 编辑

项目实战从0到1之Spark（2）Spark读取和存储HDFS上的数据

摘要：本篇来介绍一下通过Spark来读取和HDFS上的数据，主要包含四方面的内容：将RDD写入HDFS、读取HDFS上的文件、将HDFS上的文件添加到Driver、判断HDFS上文件路径是否存在。 1、启动Hadoop 首先启动咱们的Hadoop，在hadoop的目录下执行下面的命令： rm -rf tm 阅读全文

posted @ 2020-09-08 17:08 大码王阅读(1054) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （26）Flink采集kafka数据后存到mongodb

摘要：实体类： import java.io.Serializable; public class FlinkDao implements Serializable { private String id; private String startMoney; private String startTi 阅读全文

posted @ 2020-09-08 16:18 大码王阅读(1660) 评论(0) 推荐(1) 编辑

项目实战从 0 到 1 学习之Flink（25）Flink从redis中获取数据作为source源

摘要：redis中的数据：需要实现SourceFunction接口，指定泛型<>,也就是获取redis里的数据，处理完后的数据输入的数据类型这里我们需要的是（我们需要返回kv对的，就要考虑HashMap）pom.xml <!-- https://mvnrepository.com/artifact/re 阅读全文

posted @ 2020-09-08 16:08 大码王阅读(844) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （24）Flink将kafka的数据存到redis中

摘要：1、依赖 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <flink.version>1.7.2</flink.version> <slf4j.version>1.7.7</slf4j. 阅读全文

posted @ 2020-09-08 16:06 大码王阅读(610) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （23）Flink 读取hive并写入hive

摘要：1，读取实现了，也是找的资料，核心就是实现了 HCatInputFormatHCatInputFormatBase 上面这两个类，底层也是继承实现了 RichInputFormat： public abstract class HCatInputFormatBase<T> extends Rich 阅读全文

posted @ 2020-09-08 15:49 大码王阅读(4132) 评论(1) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink（22）读mysql并写入mysql

摘要：在Flink文档中，提供connector读取源数据和把处理结果存储到外部系统中。但是没有提供数据库的connector，如果要读写数据库，官网给出了异步IO(Asynchronous I/O)专门用于访问外部数据，详细可看： https://ci.apache.org/projects/flink 阅读全文

posted @ 2020-09-08 15:41 大码王阅读(674) 评论(1) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （21）Flink读HBase并写入HBase

摘要：这里读HBase提供两种方式，一种是继承RichSourceFunction，重写父类方法，一种是实现OutputFormat接口，具体代码如下：方式一：继承RichSourceFunction package com.my.flink.utils.streaming.hbase; import 阅读全文

posted @ 2020-09-08 15:38 大码王阅读(910) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （20）Flink读取hdfs文件

摘要：接一下以一个示例配置来介绍一下如何以Flink连接HDFS 1. 依赖HDFS pom.xml 添加依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-hadoop-compatibility_2.11</art 阅读全文

posted @ 2020-09-08 15:33 大码王阅读(3258) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink（19） Flink 读取Kafka生成的数据，并进行汇总

摘要：今天介绍用 Flink 读取Kafka生成的数据，并进行汇总的案例第一步：环境准备，kafka，flink，zookeeper。我这边是用的CDH环境，kafka跟zookeeper 都安装完毕，并测试可以正常使用第二步：用kafka创建一个生产者进行消息生产 ./kafka-console-p 阅读全文

posted @ 2020-09-08 15:27 大码王阅读(738) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （18）Flink SQL读取kafka数据并通过JDBC方式写入Clickhouse实时场景的简单实例

摘要：说明读取kafka数据并且经过ETL后，通过JDBC存入clickhouse中代码定义POJO类： 12345678 public class Student { private int id; private String name; private String password; pri 阅读全文

posted @ 2020-09-08 15:22 大码王阅读(2560) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink（17）Flink实时日志数据写入Clickhouse

摘要：一、背景每天上百亿的日志数据实时查询是个挑战，在架构设计上采用了Kafka + Flink + Clickhouse+Redash，实现海量数据的实时分析。计算层，我们开发了基于Flink计算引擎的实时数据平台，简化开发流程，数据通过配置化实现动态Schema生成，底层数据解析统一，无需重复造轮子阅读全文

posted @ 2020-09-08 15:19 大码王阅读(4405) 评论(6) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （16）Flink DataStream之Kafka数据写入HDFS，并分区到Hive

摘要：因业务要求，我们需要从Kafka中读取数据，变换后最终Sink到业务的消息队列中，为保证数据的可靠性，我们同时对Sink的结果数据，进行保存。最终选择将流数据Sink到HDFS上，在Flink中，同时也提供了HDFS Connector。下面就介绍如何将流式数据写入HDFS，同时将数据load到Hi 阅读全文

posted @ 2020-09-08 09:30 大码王阅读(796) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink（15）Flink读取kafka数据并写入HDFS

摘要：1.概述最近有同学留言咨询，Flink消费Kafka的一些问题，今天笔者将用一个小案例来为大家介绍如何将Kafka中的数据，通过Flink任务来消费并存储到HDFS上。 2.内容这里举个消费Kafka的数据的场景。比如，电商平台、游戏平台产生的用户数据，入库到Kafka中的Topic进行存储，然阅读全文

posted @ 2020-09-07 18:22 大码王阅读(1099) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink（14）Flink 读取kafka数据，写入到Hbase

摘要：概述环境说明 scala: 2.12.8 linux下scala安装部署 flink : 1.8.1 Flink1.8.1 集群部署 kafka_2.12-2.2.0 kafka_2.12-2.2.0 集群部署 hbase 2.1 hbase 2.1 环境搭建–完全分布式模式 Advanced - 阅读全文

posted @ 2020-09-07 18:19 大码王阅读(992) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （13）Flink 读取 Kafka 数据写入到 RabbitMQ FlinkKafkaRabbitMQ大数据流式计算

摘要：前言之前有文章《从0到1学习Flink》—— Flink 写入数据到 Kafka 写过 Flink 将处理后的数据后发到 Kafka 消息队列中去，当然我们常用的消息队列可不止这一种，还有 RocketMQ、RabbitMQ 等，刚好 Flink 也支持将数据写入到 RabbitMQ，所以今天我阅读全文

posted @ 2020-09-07 18:10 大码王阅读(1502) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink （12）Flink 读取 Kafka 数据批量写入到 MySQL

摘要：前言之前其实在《从0到1学习Flink》—— 如何自定义 Data Sink ？文章中其实已经写了点将数据写入到 MySQL，但是一些配置化的东西当时是写死的，不能够通用，最近知识星球里有朋友叫我: 写个从 kafka 中读取数据，经过 Flink 做个预聚合，然后创建数据库连接池将数据批量写阅读全文

posted @ 2020-09-07 18:08 大码王阅读(653) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink（11）Flink 写入数据到 Kafka

摘要：前言之前文章《从0到1学习Flink》—— Flink 写入数据到 ElasticSearch 写了如何将 Kafka 中的数据存储到 ElasticSearch 中，里面其实就已经用到了 Flink 自带的 Kafka source connector（FlinkKafkaConsumer）。阅读全文

posted @ 2020-09-07 18:02 大码王阅读(763) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink（10）Flink 写入数据到 ElasticSearch

摘要：前言前面 FLink 的文章中我们已经介绍了说 Flink 已经有很多自带的 Connector。其中包括了 Source 和 Sink 的，后面我也讲了下如何自定义自己的 Source 和 Sink。那么今天要做的事情是啥呢？就是介绍一下 Flink 自带的 ElasticSearch Co 阅读全文

posted @ 2020-09-07 18:01 大码王阅读(551) 评论(0) 推荐(0) 编辑

Flink 从 0 到 1 学习之（9）Flink 项目如何运行？

摘要：前言之前写了不少 Flink 文章了，也有不少 demo，但是文章写的时候都是在本地直接运行 Main 类的 main 方法，其实 Flink 是支持在 UI 上上传 Flink Job 的 jar 包，然后运行得。准备编译打包我们在整个项目（flink-learning）pom.xml 阅读全文

posted @ 2020-09-07 18:00 大码王阅读(437) 评论(0) 推荐(0) 编辑

Flink 从 0 到 1 学习之（8）介绍Flink中的Stream Windows

摘要：前言目前有许多数据分析的场景从批处理到流处理的演变，虽然可以将批处理作为流处理的特殊情况来处理，但是分析无穷集的流数据通常需要思维方式的转变并且具有其自己的术语（例如，“windowing（窗口化）”、“at-least-once（至少一次）”、“exactly-once（只有一次）” ）。对阅读全文

posted @ 2020-09-07 16:39 大码王阅读(298) 评论(0) 推荐(0) 编辑

Flink 从 0 到 1 学习之（7）Flink Data transformation(转换)

摘要：前言 Flink 应用程序结构就是如上图所示： 1、Source: 数据源，Flink 在流处理和批处理上的 source 大概有 4 类：基于本地集合的 source、基于文件的 source、基于网络套接字的 source、自定义的 source。自定义的 source 常见的有 Apache 阅读全文

posted @ 2020-09-07 16:36 大码王阅读(285) 评论(0) 推荐(0) 编辑

Flink 从 0 到 1 学习之（6）如何自定义 Data Sink ？

摘要：前言前篇文章介绍了 Flink Data Sink，也介绍了 Flink 自带的 Sink，那么如何自定义自己的 Sink 呢？这篇文章将写一个 demo 教大家将从 Kafka Source 的数据 Sink 到 MySQL 中去。准备工作我们先来看下 Flink 从 Kafka topi 阅读全文

posted @ 2020-09-07 14:52 大码王阅读(231) 评论(0) 推荐(0) 编辑

Flink 从 0 到 1 学习之（5）如何自定义 Data Source ？

摘要：前言我给大家介绍了 Flink Data Source 以及简短的介绍了一下自定义 Data Source，这篇文章更详细的介绍下，并写一个 demo 出来让大家理解。 Flink Kafka source 准备工作我们先来看下 Flink 从 Kafka topic 中获取数据的 demo，首阅读全文

posted @ 2020-09-07 14:23 大码王阅读(239) 评论(0) 推荐(0) 编辑

Flink 从 0 到 1 学习之（4）Data Sink 介绍

摘要：首先 Sink 的意思是：大概可以猜到了吧！Data sink 有点把数据存储下来（落库）的意思。如上图，Source 就是数据的来源，中间的 Compute 其实就是 Flink 干的事情，可以做一系列的操作，操作完后就把计算后的数据结果 Sink 到某个地方。（可以是 MySQL、Elast 阅读全文

posted @ 2020-09-07 14:19 大码王阅读(473) 评论(0) 推荐(0) 编辑

Flink 从 0 到 1 学习之（3） Data Source 介绍

摘要：前言 Data Sources 是什么呢？就字面意思其实就可以知道：数据来源。 Flink 做为一款流式计算框架，它可用来做批处理，即处理静态的数据集、历史的数据集；也可以用来做流处理，即实时的处理些实时数据流，实时的产生数据流结果，只要数据源源不断的过来，Flink 就能够一直计算下去，这个 Da 阅读全文

posted @ 2020-09-03 17:58 大码王阅读(341) 评论(0) 推荐(0) 编辑

Flink 从 0 到 1 学习之（2） Flink 配置文件详解

摘要：前面文章我们已经知道 Flink 是什么东西了，安装好 Flink 后，我们再来看下安装路径下的配置文件吧。安装目录下主要有 flink-conf.yaml 配置、日志的配置文件、zk 配置、Flink SQL Client 配置。 flink-conf.yaml 基础配置 12345678910 阅读全文

posted @ 2020-09-03 17:56 大码王阅读(674) 评论(0) 推荐(0) 编辑

Flink 从 0 到 1 学习之（1）Apache Flink 介绍

摘要：前言 Flink 是一种流式计算框架，为什么我会接触到 Flink 呢？因为我目前在负责的是监控平台的告警部分，负责采集到的监控数据会直接往 kafka 里塞，然后告警这边需要从 kafka topic 里面实时读取到监控数据，并将读取到的监控数据做一些聚合/转换/计算等操作，然后将计算后的结阅读全文

posted @ 2020-09-03 17:51 大码王阅读(427) 评论(0) 推荐(0) 编辑

Linux入门到实战之（3）使用x之sz下载和rz上传

摘要：对于经常使用Linux系统的人员来说，少不了将本地的文件上传到服务器或者从服务器上下载文件到本地，rz / sz命令很方便的帮我们实现了这个功能，但是很多Linux系统初始并没有这两个命令。今天，我们就简单的讲解一下如何安装和使用rz、sz命令。 1.软件安装（1）编译安装 root 账号登陆后，阅读全文

posted @ 2020-09-03 14:57 大码王阅读(320) 评论(0) 推荐(0) 编辑

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (719)

随笔档案 (693)

文章分类 (35)

文章档案 (40)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

喜欢请打赏