随笔分类 -  云运维&&云架构

上一页 1 2 3 4 5 6 7 8 9 ··· 178 下一页

dbt dq-tools 数据质量工具
摘要:dbt dq-tools 数据质量工具,对于数据质量 dq-tools 围绕 Accuracy,Consistency,Completeness,Timeliness,Validity,Uniqueness这6个kpi 进行处理 包含的功能 存储测试结果到表中 创建方便数据质量的数据集市 提供bi 阅读全文

posted @ 2024-06-18 06:50 荣锋亮 阅读(15) 评论(0) 推荐(0) 编辑

dbt data class column 简单说明
摘要:以前有简单介绍过dbt的 data class里边实际上包含了relation 以及column 一些方便的api 可以直接在macro 中调用 relation 比较常用,column 直接使用的并不是特别多,以下简单说明下 内部包装 与dbt context 对象一样属于一个包装 参考定义 @c 阅读全文

posted @ 2024-06-17 08:00 荣锋亮 阅读(7) 评论(0) 推荐(0) 编辑

unitycatalog datagrics 开源的data&ai 多模catalog
摘要:unitycatalog datagrics 开源的data&ai 多模catalog 包含的特性 支持任意格式、引擎、资产的多摸接口 支持包含了delta lake,iceberg,uniform,paquert,csv。。。等格式,超越表,支持非结构化数据以及ai 资产,插件化的架构,可以支持h 阅读全文

posted @ 2024-06-16 10:15 荣锋亮 阅读(14) 评论(0) 推荐(0) 编辑

dbt_artifacts 包内部实现简单说明
摘要:以前对于dbt_artifacts 有过简单的介绍,以下从设计以及源码上分析下,方便学习使用 使用 dbt_artifacts 提供了不少macro 同时也提供了不少模型,比如stg 类型的以及dim,fact 类型的, 对于使用 dbt_artifacts 推荐的方法是是使用了dbt 的on-ru 阅读全文

posted @ 2024-06-16 07:05 荣锋亮 阅读(7) 评论(0) 推荐(0) 编辑

maven maven.config 简单说明
摘要:maven 从3.3.1+ 开始支持基于maven.config 模式的命令行参数处理,以下简单说明下 配置 位置 .mvn/maven.config 参考配置 注意从3.9 开始参数应该是每行一个 -Pconsume-incrementals -Pmight-produce-incremental 阅读全文

posted @ 2024-06-15 08:00 荣锋亮 阅读(166) 评论(0) 推荐(0) 编辑

dbt 部分macro 中namespace的使用简单说明
摘要:比如在dbt adapter 中的snapshot_check_all_get_existing_columns 中就使用了namepace 这个对象,以下简单说明下 namespace 对象的作用 实际上就是进行跨scope 的数据共享,因为jinja2 每个block 中的设置的变量是不能跨范围 阅读全文

posted @ 2024-06-14 06:00 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

dbt yaml selector 简单说明
摘要:dbt 基于yaml 的selector 实际上就是一个yaml 格式文件,我们在运行的时候可以指定一个配置好的selector 文件,这样实际运行的 时候就比较方便了 主要作用 清晰 方便版本控制 可重用 参考使用 配置 selectors.yml selectors: - name: night 阅读全文

posted @ 2024-06-13 06:15 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

dbt seed 配置简单说明
摘要:dbt 的seed是进行一些初始化数据建模的,可以方便测试,或者在一些场景提供基础数据,dbt 对于seed 支持不少配置,比如seed 的schema 位置,csv 分隔符处理,seed 中数据类型定义,当然还有 一些dbt 的通用配置(比如tag,meta,tests),我以前简单说明过seed 阅读全文

posted @ 2024-06-12 05:38 荣锋亮 阅读(12) 评论(0) 推荐(0) 编辑

dbt select支持的方法简单说明
摘要:对于一个大型的dbt 项目,我进行按需选择模型还是很重要的,dbt 基于select 可以支持多样的选择方法 支持的模式 tag 模式 dbt run --select "tag:nightly" source 模式 dbt run --select "source:snowplow+" 资源类型模 阅读全文

posted @ 2024-06-11 06:10 荣锋亮 阅读(14) 评论(0) 推荐(0) 编辑

ollama gpu 集成测试qwen2 7b 模型
摘要:昨天测试了下基于ollama cpu 模式运行的qwen2 对于小参数0.5b 以及1.5b 的速度还行,但是你的cpu 核数以及内存还是需要大一些 今天测试下基于gpu 的qwen2 7b 模型,以下简单说明下 安装ollama 如果我们申请的机器包含了GPU,ollama 的安装cli 还是比较 阅读全文

posted @ 2024-06-10 08:24 荣锋亮 阅读(455) 评论(0) 推荐(0) 编辑

ollama qwen2 运行&openai 兼容api 测试
摘要:qwen2 模型已经发布了,各种新闻都说很不错,所以通过ollama 测试下 安装ollama cli curl -fsSL https://ollama.com/install.sh | sh 启动服务 ollama serve 拉取qwen2:1.5b 模型 使用了api 模式 cli curl 阅读全文

posted @ 2024-06-10 08:24 荣锋亮 阅读(867) 评论(0) 推荐(0) 编辑

dbt macro kwargs 参考的使用
摘要:从机制上实际上属于jinja2 的功能,可以实现灵活的扩展能力 jinja2 macro 提供的几个变量 varargs 就类似python 的var 变量 kwargs 是实现了keywords 参数的变量,可以获取传递的keyword 信息(实际上就是一个字典) caller 是在使用call 阅读全文

posted @ 2024-06-10 07:13 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

dbt exceptions 简单说明二
摘要:以前对于dbt 提供的exceptions namespace 方法进行了说明,实际是dbt 对于exceptions 细化的还是比较明确的,以前没详细说明 当前包含的exceptions 信息 exceptions_jinja.py CONTEXT_EXPORTS = { fn.__name__: 阅读全文

posted @ 2024-06-09 07:07 荣锋亮 阅读(7) 评论(0) 推荐(0) 编辑

通过site 包加载egg 或者whl pcakge 包并动态调用模块方法
摘要:以前简单说过通过sys.path 进行egg 文件模块的加载,实际上我们可以结合site 以及.pth 能力,实现灵活的加载处理,同时通过 importlib 进行动态加载,以下是一个简单说明 加载配置 通过site 包,添加自定义目录,目录里边包含 .pth 配置 目录结构 .pth 内容 使用 阅读全文

posted @ 2024-06-08 12:32 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

luax 基于lua 5.4 的解释器&支持通过lua script 构建可执行文件
摘要:luax 基于lua 5.4 的解释器&支持通过lua script 构建可执行文件,内部luax 使用了不少技术,比如使用了ezig,Lpeg,luasocket,LZ4,dkjson 说明 对于luax 复用了不少现有的包,内置到里边了,还是比较全的,后边体验下 参考资料 https://git 阅读全文

posted @ 2024-06-08 12:32 荣锋亮 阅读(12) 评论(0) 推荐(0) 编辑

dbt graph 上下文变量简单说明
摘要:dbt graph 上下文变量,包含了dbt 项目相关的nodes 信息(比如model,source,metrics,macros,tests,snapshots) 因为dbt 包含了不同的处理阶段,实际如果希望获取graph context 中的一些nodes 信息,注意执行的阶段,一般建议的玩 阅读全文

posted @ 2024-06-08 08:00 荣锋亮 阅读(7) 评论(0) 推荐(0) 编辑

dbterd 基于dbt artifacts 生成ERD 代码的工具
摘要:dbterd 基于dbt artifacts 生成ERD 代码的工具,内部是通过dbt-artifacts-parser 对于dbt 项目的元数据进行解析当然看到部分可能会使用dbt-core 的cli 包含的一些特性 支持多种模型格式的target 包含了dbml,mermaid,plant目录, 阅读全文

posted @ 2024-06-07 08:00 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

ibis python dataframe 库
摘要:ibis是一个 python dataframe 库 包含的特性 对 20 多个后端使用相同的 API 具有嵌入式 DuckDB(默认)、Polars 或 DataFusion 的快速本地数据帧 修改一行代码即可本地迭代、远程部署 编写 SQL 和 Python 数据框代码,弥合数据工程和数据科学之 阅读全文

posted @ 2024-06-06 08:00 荣锋亮 阅读(31) 评论(0) 推荐(0) 编辑

python 生成uber egg 的几个工具
摘要:有些时候我们为了方便python 模块的分发,会有类似java uber jar的需求,社区已经有一些不错的可选工具,以下说明下 uberegg 这个工具scrapy-client 中的deploy 就使用了此工具,对于依赖的构建我们制定配置就可以了python setup.py bdist_ube 阅读全文

posted @ 2024-06-05 21:47 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

python 直接加载egg 文件的模块
摘要:主要作为一个简单记录 参考示例 文件模式 import sys import os egg_path = os.path.join(os.path.dirname(__file__), 'dist', 'mydalong-0.1-py3.11.egg') sys.path.append(egg_pa 阅读全文

posted @ 2024-06-05 21:45 荣锋亮 阅读(11) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 9 ··· 178 下一页

导航