大数据之旅 - 随笔分类 - ---江北

该文被密码保护。

posted @ 2021-06-07 16:36 ---江北阅读(0) 评论(0) 推荐(0)

该文被密码保护。

posted @ 2021-04-05 16:49 ---江北阅读(1) 评论(0) 推荐(0)

摘要：一、概述状态的分类：状态的概念：两种状态的介绍：二、两种状态 1.算子状态：算子状态的数据结构：不过，实际运用中，都是使用键控状态居多！ 2.键控状态键控状态的数据结构：代码中使用示例： 3.状态后端访问存储状态的组件：可供选择的状态后端：阅读全文

posted @ 2020-11-05 09:31 ---江北阅读(273) 评论(0) 推荐(0)

flink入门（四）——window概念和时间、水位线

摘要：一、窗口概述窗口的概念：用来将无限流切分为有限流，分发到有限大小的桶中进行处理窗口的分类：大致分为时间窗口和计数窗口窗口的边界：左闭右开二、窗口介绍 1.滚动时间窗口由固定的窗口长度控制，不会有重叠 2.滑动时间窗口由窗口size和滑动距离控制，元素会有重叠，当然，步长=size的时候，阅读全文

posted @ 2020-11-02 10:12 ---江北阅读(640) 评论(0) 推荐(0)

flink入门（三）——DataStream API

摘要：一、概述 1.大致流程：主要分五步获取一个执行环境加载/创建初始数据指定数据上的转换指定计算结果放在哪里触发程序执行详细步骤，可以参考：https://www.cnblogs.com/cjsblog/p/12967555.html 1）在sacla中可以通过静态方法获取执行环境：（根据上阅读全文

posted @ 2020-10-23 14:50 ---江北阅读(559) 评论(0) 推荐(0)

flink入门（二）——部署与运行架构

摘要：一、单机版安装与测试参考：http://www.oushaobin.cn/archives/apache-flink-guide-1.html 1）进入IP:8081管理界面（虚拟机需要防火墙关闭），进入submit new job页面 2）将scala写好的word-count程序打包成包含ja 阅读全文

posted @ 2020-10-19 15:59 ---江北阅读(436) 评论(0) 推荐(0)

(阿里训练营)flink——Stream Processing With Flink

摘要：一、并行处理和编程规范 1.并行计算并行计算的核心思想:分而治之，将节点变成有向无环图，路径为Source Trans Sink 二、DataStream API 1.大致运行流程：代码示例： flink的source从哪里来？——flink连接器更多的DataStream API，参考：ht 阅读全文

posted @ 2020-10-13 13:52 ---江北阅读(281) 评论(0) 推荐(0)

大数据-用户画像

该文被密码保护。

posted @ 2020-07-02 16:40 ---江北阅读(0) 评论(0) 推荐(0)

阿里云数仓

该文被密码保护。

posted @ 2019-11-23 11:43 ---江北阅读(2) 评论(0) 推荐(0)

大数据web管理工具——HUE

摘要：一、概述 HUE是一个开源的Apache Hadoop UI系统，早期由Cloudera开发，后来贡献给开源社区。它是基于Python Web框架Django实现的。通过使用Hue我们可以通过浏览器方式操纵Hadoop集群。二、安装安装推荐随笔：https://www.cnblogs.com/z 阅读全文

posted @ 2019-11-17 20:12 ---江北阅读(1400) 评论(0) 推荐(0)

数据中台初探

该文被密码保护。

posted @ 2019-11-14 21:22 ---江北阅读(6) 评论(0) 推荐(0)

flink入门（一）——基本原理与应用场景

摘要：一、简介 1.简介 flink是一个开源的分布式流处理框架优势：高性能处理、高度灵活window操作、有状态计算的Exactly-once等详情简介，参考官网：https://flink.apache.org/flink-architecture.html 中文参考：https://flink. 阅读全文

posted @ 2019-08-28 17:34 ---江北阅读(805) 评论(0) 推荐(1)

DataWorks2.0——DataStudio简单对比使用上手

摘要：1.原先的数据管理去哪里了？悬停在此图标上即可： 2.项目模式有何不同？ 3.百问百答-下线节点如何下线节点：https://developer.aliyun.com/article/769569 阅读全文

posted @ 2019-05-13 11:29 ---江北阅读(1648) 评论(0) 推荐(0)

ODPS-Java-SDK快速入门

摘要：一、简介核心接口包括：AliyunAccount，MaxCompute（SDK中使用原名ODPS）等常见对象组件更多参见文档：https://help.aliyun.com/document_detail/34614.html?spm=a2c4g.11174283.6.693.2c36590e8 阅读全文

posted @ 2018-09-18 17:15 ---江北阅读(4310) 评论(0) 推荐(0)

DataHub使用小结（一）——概述

摘要：一、概念 1.什么是DataHub DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布（Publish），订阅（Subscribe）和分发功能在订阅-发布功能中，订阅者订阅自己感兴趣的数据，发布者发布到中间channel，发布-订阅彼此不知道对方的存在可以轻阅读全文

posted @ 2018-09-06 17:11 ---江北阅读(17566) 评论(0) 推荐(0)

DataWorks使用小结（二）——功能面板使用指南

摘要：一、数据开发 1.任务开发新建表野路子可以直接新建一个任务，粘贴DDL，手动运行任务即可完成建表正常应当是在“数据管理”->数据表管理中建表：支持可视化建表和DDL建表（配合之前的宏，建表还是很快的）当然，这种方式的局限也很明显，一是稍显繁琐，二是不能同时运行多个任务，三是不能保存建表脚本阅读全文

posted @ 2018-08-27 17:45 ---江北阅读(8622) 评论(0) 推荐(0)

DataWorks使用小结（一）——概述

摘要：一、概述 DataWorks数据工场，是MaxComputer的可视化开发平台，一站式开发、管理界面 1.功能概述 1.强大调度：支持分钟到月的调度 2.多种任务：支持ODPS、SHELL等多种任务 3.可视化开发：B/S架构的可视化开发界面，简单易上手 2.基本概念 1.任务 0个或多个表作为输入阅读全文

posted @ 2018-08-26 12:00 ---江北阅读(29246) 评论(0) 推荐(0)

【SQL】MaxComputer中调试与问题排查技巧小结

摘要：1.分段调试面对长的SQL，出错时一般直接看定位的行号，有时候不出错但是没数据时，应该尝试分段调试，很长的SQL嵌套很多的子查询时，一个一个子查询进行分别调试，看哪一步子查询出了问题，层层推进 2.日志查看通常情况下，日志都是很重要的指示。有时候一些莫名其妙的错误时，错误信息看得懂却始终调不通时阅读全文

posted @ 2018-08-25 16:40 ---江北阅读(1965) 评论(0) 推荐(0)

阿里巴巴大数据之路——数据管理篇

摘要：一、概述数据管理主要分为：元数据管理、计算管理、存储和成本管理、数据质量管理二、元数据元数据主要分为两大类：技术元数据和业务元数据技术元数据：存储数据仓库技术细节的数据，包括：存储元数据：表名、字段名、分区信息等运行元数据：作业类型、SQL、运行参数等开发元数据：数据同步、计算任务、阅读全文

posted @ 2018-08-03 13:39 ---江北阅读(3785) 评论(0) 推荐(0)

阿里巴巴大数据之路——数据模型篇

摘要：一、概述 1.什么是数据模型？数据模型就是数据的组织和存储方法。主要关注的是从业务、数据存取和使用角度合理存储数据。 2.典型数据仓库建模方法论 ER模型纬度模型（建模四步曲：确定业务流程->确定粒度->确定纬度->确定事实表）二、阿里巴巴数据整合管理体系oneData 1.体系架构核心内容阅读全文

posted @ 2018-07-30 15:06 ---江北阅读(14058) 评论(0) 推荐(0)

---江北

冰冻三尺，非一日之寒

随笔分类 - 大数据之旅

公告