随笔分类 -  200 bigdata

摘要:因开发远程获取财物数据服务,可能出现链接远程服务超时,脚本执行时,需判断每次执行是否成功。 同时配置失败重试次数(我配置为2次),间隔时间1小时。相当于联机补偿事务。 day=$(date +%Y%m%d)for i in {500..1}do rq=$(date -d "${today} ${i} 阅读全文
posted @ 2024-01-18 18:19 163博客 编辑
摘要:一 impala architecture 二 impala query 三 公司 impala 平台物理框架 16 台 DataNode (其中3台 Impalad 服务) 四 impala 主要功能 Impalad : ThriftServer (beeswax_serve :客户端 、 hs2 阅读全文
posted @ 2023-11-09 17:25 163博客 编辑
摘要:原始数据 167796 DECIMAL(30,2) 441976 DECIMAL(30,2) 对应数据 分子和分母 按照 DECIMAL(30,2) 类型转换,最后值按照 ROUND 进行转换,换算的百分比数据正确。 阅读全文
posted @ 2023-10-30 17:09 163博客 编辑
摘要:1 mpp 架构 2 clickhouse 底层存储 hdfs 3 engine kafka table engine MergeTree ReplicatedMergeTree 4 kafka 写数据到 clickhouse clickhouse 写数据到 kafka mysql 导入 click 阅读全文
posted @ 2022-11-22 09:31 163博客 编辑
摘要:20221030 数据湖定义: 一个存储企业各种各样原始数据的大型仓库,其中数据可以存取,处理,分析和传输。 数据湖 数据仓库 1 处理所有类型的数据,比如结构化数据,非结构化数据, 1 只处理结构化数据进行处理。数据与数据仓库定义模型吻合。 半结构化数据等,数据的类型依赖于数据源系统的原始数据格式 阅读全文
posted @ 2022-10-30 12:16 163博客 编辑
摘要:20221002 笔记 数据资产特征:将企业的数据资产统一管理起来,实现数据资产的可见,可懂,可用和可运营。 主要作用,对数据应用提供价值挖掘和业务赋能和实现数据全生命周期的管理。 企业拥有或控制 能带来未来经济利益 数据资源 数据资产在数据中台处于中间位置,介于数据开发和数据应用之间。 数据治理: 阅读全文
posted @ 2022-09-29 22:12 163博客 编辑
摘要:刚工作到现在做数据项目,除了在 IBM 实施 FSDM 里面用了标准数据仓库模型建设方法论,里面有代理键 CL ,IP 等经典数据仓库设计方法论,在国内实施数据仓库用 SurrogateKey 比较少。 解决SCD 问题,建议可以参考维基百科里面 SCD解决方法。 这里面我想表达是 SCD 和 Su 阅读全文
posted @ 2022-09-29 11:21 163博客 编辑
摘要:20220922 笔记: 1 业务中台 是抽象业务流程的共性形成通用业务服务能力, (这种技术支持比如微服务,更小粒度的DDD,部门比如基础数据组,运单组,订单组) 数据中台 是抽象数据能力的共性形成通用数据服务能力。 (比如源业务数据通过资产化服务,形成用户画像,大数据风控,可以用在多个领域,比如 阅读全文
posted @ 2022-09-22 21:07 163博客 编辑
摘要:最近所在项目要使用华为的数据湖,如下: 和厂商的工程师沟通了,这个数据湖就是大数据平台。 阅读全文
posted @ 2022-09-21 10:09 163博客 编辑
摘要:1 数据源: oracle 仓库: odps_first 相当于hive 结果: PosgreSQL 2 分层 maxComputer stg --> ods --> dwd > dws >ads STG: 3 结果同步到 PosgreSQL (PG管理) 4 报表展示 阅读全文
posted @ 2022-09-20 20:54 163博客 编辑
摘要:小插曲: 上传JAR包到大数据平台,不小心出现上传错误,删除方法如下: ls -i 正文: 1 配置worker 2 航天云网平台的Task ( SHELL 和 JAR ) 需要上传到Worker 任意一台服务器上。( 有的调度平台是把任务直接上传到HDFS上面,任务日志也是在HDFS上面,多台WO 阅读全文
posted @ 2022-09-16 11:18 163博客 编辑

点击右上角即可分享
微信分享提示