随笔分类 -  大数据之旅

大数据入门随笔
该文被密码保护。
posted @ 2021-06-07 16:36 ---江北 阅读(0) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2021-04-05 16:49 ---江北 阅读(1) 评论(0) 推荐(0) 编辑
摘要:一、概述 状态的分类: 状态的概念: 两种状态的介绍: 二、两种状态 1.算子状态: 算子状态的数据结构: 不过,实际运用中,都是使用键控状态居多! 2.键控状态 键控状态的数据结构: 代码中使用示例: 3.状态后端 访问存储状态的组件: 可供选择的状态后端: 阅读全文
posted @ 2020-11-05 09:31 ---江北 阅读(256) 评论(0) 推荐(0) 编辑
摘要:一、窗口概述 窗口的概念:用来将无限流切分为有限流,分发到有限大小的桶中进行处理 窗口的分类:大致分为时间窗口和计数窗口 窗口的边界:左闭右开 二、窗口介绍 1.滚动时间窗口 由固定的窗口长度控制,不会有重叠 2.滑动时间窗口 由窗口size和滑动距离控制,元素会有重叠,当然,步长=size的时候, 阅读全文
posted @ 2020-11-02 10:12 ---江北 阅读(602) 评论(0) 推荐(0) 编辑
摘要:一、概述 1.大致流程:主要分五步 获取一个执行环境 加载/创建初始数据 指定数据上的转换 指定计算结果放在哪里 触发程序执行 详细步骤,可以参考:https://www.cnblogs.com/cjsblog/p/12967555.html 1)在sacla中可以通过静态方法获取执行环境:(根据上 阅读全文
posted @ 2020-10-23 14:50 ---江北 阅读(507) 评论(0) 推荐(0) 编辑
摘要:一、单机版安装与测试 参考:http://www.oushaobin.cn/archives/apache-flink-guide-1.html 1)进入IP:8081管理界面(虚拟机需要防火墙关闭),进入submit new job页面 2)将scala写好的word-count程序打包成包含ja 阅读全文
posted @ 2020-10-19 15:59 ---江北 阅读(409) 评论(0) 推荐(0) 编辑
摘要:一、并行处理和编程规范 1.并行计算 并行计算的核心思想:分而治之,将节点变成有向无环图,路径为Source Trans Sink 二、DataStream API 1.大致运行流程: 代码示例: flink的source从哪里来?——flink连接器 更多的DataStream API,参考:ht 阅读全文
posted @ 2020-10-13 13:52 ---江北 阅读(273) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2020-07-02 16:40 ---江北 阅读(0) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2019-11-23 11:43 ---江北 阅读(2) 评论(0) 推荐(0) 编辑
摘要:一、概述 HUE是一个开源的Apache Hadoop UI系统,早期由Cloudera开发,后来贡献给开源社区。它是基于Python Web框架Django实现的。通过使用Hue我们可以通过浏览器方式操纵Hadoop集群。 二、安装 安装推荐随笔:https://www.cnblogs.com/z 阅读全文
posted @ 2019-11-17 20:12 ---江北 阅读(1366) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2019-11-14 21:22 ---江北 阅读(6) 评论(0) 推荐(0) 编辑
摘要:一、简介 1.简介 flink是一个开源的分布式流处理框架 优势:高性能处理、高度灵活window操作、有状态计算的Exactly-once等 详情简介,参考官网:https://flink.apache.org/flink-architecture.html 中文参考:https://flink. 阅读全文
posted @ 2019-08-28 17:34 ---江北 阅读(757) 评论(0) 推荐(1) 编辑
摘要:1.原先的数据管理去哪里了? 悬停在此图标上即可: 2.项目模式有何不同? 3.百问百答-下线节点 如何下线节点:https://developer.aliyun.com/article/769569 阅读全文
posted @ 2019-05-13 11:29 ---江北 阅读(1623) 评论(0) 推荐(0) 编辑
摘要:一、简介 核心接口包括:AliyunAccount,MaxCompute(SDK中使用原名ODPS)等常见对象组件 更多参见文档:https://help.aliyun.com/document_detail/34614.html?spm=a2c4g.11174283.6.693.2c36590e8 阅读全文
posted @ 2018-09-18 17:15 ---江北 阅读(4258) 评论(0) 推荐(0) 编辑
摘要:一、概念 1.什么是DataHub DataHub是流式数据(Streaming Data)的处理平台,提供对流式数据的发布(Publish),订阅(Subscribe)和分发功能 在订阅-发布功能中,订阅者订阅自己感兴趣的数据,发布者发布到中间channel,发布-订阅彼此不知道对方的存在 可以轻 阅读全文
posted @ 2018-09-06 17:11 ---江北 阅读(17364) 评论(0) 推荐(0) 编辑
摘要:一、数据开发 1.任务开发 新建表 野路子可以直接新建一个任务,粘贴DDL,手动运行任务即可完成建表 正常应当是在“数据管理”->数据表管理中建表: 支持可视化建表和DDL建表(配合之前的宏,建表还是很快的) 当然,这种方式的局限也很明显,一是稍显繁琐,二是不能同时运行多个任务,三是不能保存建表脚本 阅读全文
posted @ 2018-08-27 17:45 ---江北 阅读(8553) 评论(0) 推荐(0) 编辑
摘要:一、概述 DataWorks数据工场,是MaxComputer的可视化开发平台,一站式开发、管理界面 1.功能概述 1.强大调度:支持分钟到月的调度 2.多种任务:支持ODPS、SHELL等多种任务 3.可视化开发:B/S架构的可视化开发界面,简单易上手 2.基本概念 1.任务 0个或多个表作为输入 阅读全文
posted @ 2018-08-26 12:00 ---江北 阅读(29087) 评论(0) 推荐(0) 编辑
摘要:1.分段调试 面对长的SQL,出错时一般直接看定位的行号,有时候不出错但是没数据时,应该尝试分段调试,很长的SQL嵌套很多的子查询时,一个一个子查询进行分别调试,看哪一步子查询出了问题,层层推进 2.日志查看 通常情况下,日志都是很重要的指示。有时候一些莫名其妙的错误时,错误信息看得懂却始终调不通时 阅读全文
posted @ 2018-08-25 16:40 ---江北 阅读(1920) 评论(0) 推荐(0) 编辑
摘要:一、概述 数据管理主要分为:元数据管理、计算管理、存储和成本管理、数据质量管理 二、元数据 元数据主要分为两大类:技术元数据和业务元数据 技术元数据: 存储数据仓库技术细节的数据,包括: 存储元数据:表名、字段名、分区信息等 运行元数据:作业类型、SQL、运行参数等 开发元数据:数据同步、计算任务、 阅读全文
posted @ 2018-08-03 13:39 ---江北 阅读(3758) 评论(0) 推荐(0) 编辑
摘要:一、概述 1.什么是数据模型? 数据模型就是数据的组织和存储方法。主要关注的是从业务、数据存取和使用角度合理存储数据。 2.典型数据仓库建模方法论 ER模型 纬度模型(建模四步曲:确定业务流程->确定粒度->确定纬度->确定事实表) 二、阿里巴巴数据整合管理体系oneData 1.体系架构 核心内容 阅读全文
posted @ 2018-07-30 15:06 ---江北 阅读(13938) 评论(0) 推荐(0) 编辑

TOP
点击右上角即可分享
微信分享提示