随笔分类 -  数据分析

上一页 1 2 3 4 5 6 7 ··· 56 下一页

metaflow netflix开源的数据科学ML&AI 框架
摘要:metaflow netflix开源的数据科学ML&AI 框架,类似的也有kedro,metaflow 相比kedro 来说对于云原生周边支持的更加友好 一张图了解metaflow 能力 如下图,很清晰的说明了metaflow 的能力,而且都是基于代码声明的 说明 metaflow 官方文档比较详细 阅读全文

posted @ 2024-09-24 07:55 荣锋亮 阅读(77) 评论(0) 推荐(0) 编辑

kedro data catalog version 处理简单说明
摘要:kedro data catalog 支持version 化,这样可以方便的使用特定时间的多数据,以下是对于version 的简单说明 参考使用 pikachu: type: kedro_pokemon.datasets.image_dataset.ImageDataset filepath: da 阅读全文

posted @ 2024-09-23 00:02 荣锋亮 阅读(11) 评论(0) 推荐(0) 编辑

kedro 参考架构
摘要:内容来自官方文档,主要是一个记录,方便学习使用,通过此图我们可以快速的了解kedro的开发机制以及内部运行,有助于阅读源码对于kedro进行扩展 参考图 说明 上图中包含了kedro project 说明了对于pipeline 开发者的代码结构以及开发流程(一般我们基于标准模版开发就可以了),ked 阅读全文

posted @ 2024-09-22 06:41 荣锋亮 阅读(24) 评论(0) 推荐(0) 编辑

kedro package 命令内部处理简单说明
摘要:kedro package 是一个比较方便的能力,可以将我们开发的data pipeline 打包为python 包,方便分发以及使用,以下简单说明下内部实现 参考内部处理 代码 可以看到内部并没有特殊的地方,对于标准python whl 文件基于了build 模块进行构建,对于配置部分使用了tar 阅读全文

posted @ 2024-09-21 06:57 荣锋亮 阅读(9) 评论(0) 推荐(0) 编辑

kedro 简单试用
摘要:主要是一个简单学习试用 环境准备 安装kedro python -m venv venv source venv/bin/activate pip install kedro minio s3 存储 为了方便测试使用了s3 进行数据存储,注意需要同时安装 version: "3" services: 阅读全文

posted @ 2024-09-20 06:02 荣锋亮 阅读(38) 评论(0) 推荐(0) 编辑

kedro 创建模块化数据科学pipeline 的python 框
摘要:kedro 创建模块化数据科学pipeline 的python 框架 包含的特性 pipeline 可视化,基于了kedro-viz data catalog 轻量级的data connenctors 可以方便数据的读取以及保存,扩展上也比较强大 周边集成,可以方便的与apache airflow, 阅读全文

posted @ 2024-09-19 08:00 荣锋亮 阅读(28) 评论(0) 推荐(0) 编辑

pandas-ai 基于LLM进行数据分析的python 框架
摘要:pandas-ai 基于LLM进行数据分析的python 框架 包含的特性 基于自然语言的数据查询 数据可视化 数据清理 特征生成 数据链接(支持链接多种不同的数据源) 说明 对于基于数据分析的场景pandas-ai 是一个值得尝试的工具,同时官方也微调了一个BambooLLM 的模型(基于mist 阅读全文

posted @ 2024-09-13 00:03 荣锋亮 阅读(140) 评论(0) 推荐(0) 编辑

trafilatura python web 数据获取库
摘要:trafilatura python web 数据获取库,比较适合进行爬虫,数据提取,支持输出数据为csv,json,html,md,txt,xml 包含的特性 高级web 爬虫以及文本发现 并行处理在线以及离线输入内容 灵活的配置支持,包含了元数据,格式,链接,表格 多输出格式,包含了文本,mar 阅读全文

posted @ 2024-09-07 07:37 荣锋亮 阅读(73) 评论(0) 推荐(0) 编辑

通过litellm + ollma 试用autolabel
摘要:ollama 当前版本对于openai api 的兼容实际上部分是有问题的(目前官方在进行修改,但是暂时还没发布),我们可以通过litelmm 的proxy 模式提供openaia 兼容的api,同时可以进行灵活的改写(比如openai 的gpt-3.5-turbo 实际使用的是michaelbor 阅读全文

posted @ 2024-08-23 08:00 荣锋亮 阅读(263) 评论(0) 推荐(0) 编辑

omniparse 面向文档以及多媒体资源的数据处理解析以及优化的工具
摘要:omniparse 面向文档以及 多媒体资源的数据处理解析以及优化的工具 包含的特性 本地运行 支持10+ 文件类型 转换文旦分多媒体,web 为高质量结构化的markdown 表格提取,图片提取,音视频字幕,web 爬虫 快速部署 提供了api 访问 使用到的一些开源工具 如下,主要是orc ,音 阅读全文

posted @ 2024-08-14 08:00 荣锋亮 阅读(341) 评论(0) 推荐(0) 编辑

schemacrawler 免费开源的数据库schema 发现以及理解工具
摘要:schemacrawler 是基于java 开发的免费开源的数据库schema 发现以及理解工具 schemacrawler 包含的几个周边 cli 提供了cli 我们可以方便的处理不同数据库的处理,同时支持输出为html,json,yaml java api 通过java api 可以方便的通过p 阅读全文

posted @ 2024-07-31 07:58 荣锋亮 阅读(182) 评论(0) 推荐(0) 编辑

通过instructor 对于LLM 进行结构化输出
摘要:很多时候我们是需要对于LLM 生成的内容进行结构化输出的,比如我们希望利用LLM的能力,对于用户发布的内容进行情感分析,或者对于文档内容提取关键信息并转换为结构化的内容,instructor 是一个很不错的选择(支持多种语言的),以下演示下基于python 的 参考使用 大模型部署 为了方便使用了基 阅读全文

posted @ 2024-07-28 08:00 荣锋亮 阅读(182) 评论(5) 推荐(0) 编辑

dbt indexes 配置简单说明
摘要:dbt indexes 索引配置的目的是提升系统性能,为了方便维护dbt 提供了默认空实现,对于不同db 会有不同的实现,以下简单说明下 内部macro 定义 可以看到基本实现都为空,由具体的db adapter 实现 {% macro get_create_index_sql(relation, 阅读全文

posted @ 2024-07-24 07:37 荣锋亮 阅读(22) 评论(0) 推荐(0) 编辑

dbt 1.8 发布
摘要:就在最近,dbt 发布了1.8.0 版本,核心比较重要的功能是提供了单元测试的能力,同时是官方文档也进行了调整(以前是可以看到,但是是实际是不能使用的),完整的changelogs 可以查看github 信息 参考资料 https://docs.getdbt.com/reference/resour 阅读全文

posted @ 2024-07-23 08:00 荣锋亮 阅读(19) 评论(0) 推荐(0) 编辑

dbt dremio 自定义的几个macro 简单说明
摘要:关于自定义schema 以前简单说明过,实际上dbt 支持了好几个预留的macro,可以方便进行自定义,比如schema,database,aliases,target dbt dremio adapter 的几个自定义macro 实际上就是上边说的,schemas,aliases,database 阅读全文

posted @ 2024-07-22 08:00 荣锋亮 阅读(25) 评论(0) 推荐(0) 编辑

dbt dremio nessie create table branch 问题解决简单说明
摘要:以前是简单说明过解决方法,以下通过实际代码,说明下解决 dbt dremio 集成nessie 内部处理简单说明 注意目前说明的场景是基于nessie 作为数据库配置的,而不是dbt 标准的space 玩法 整体处理 如下图,实际上和业务模型的定义有关系,包含了view,以及table,当然还有属于 阅读全文

posted @ 2024-07-21 01:21 荣锋亮 阅读(21) 评论(0) 推荐(0) 编辑

dbt create table branch 问题
摘要:属于社区有人的一个提问,实际上dremio 支持对于nessie source 特定branch 的 table 的创建,而且源码也有信息,只是官方文档缺少说明 branch创建表参考测试 一个简单sql CREATE table dbtv4.myappv5 AT BRANCH prod as se 阅读全文

posted @ 2024-07-20 08:00 荣锋亮 阅读(17) 评论(0) 推荐(0) 编辑

整理几个youtube 数据处理的包
摘要:对于需要进行youtube 数据处理的,有几个不错的工具包,可以选择youtube-transcript-api 核心是处理字幕的,可以提供不少参数pytube 支持下载视频,字幕,缩略图。。。yt-dlp 属于一个cli 以及python 包包含的功能比较完备,支持不少视频数据的处理 参考资料 h 阅读全文

posted @ 2024-07-17 08:00 荣锋亮 阅读(43) 评论(0) 推荐(0) 编辑

chdb 简单试用
摘要:通过python 模式包体验下chdb 参考使用 安装依赖 pip install chdb 简单代码 from chdb.session import Session db = Session('./db') db.query("CREATE DATABASE if not exists db") 阅读全文

posted @ 2024-07-15 07:39 荣锋亮 阅读(57) 评论(0) 推荐(0) 编辑

Crunchy Bridge 通过duckdb 对于pg 进行扩展
摘要:Crunchy 最近发布了一个Crunchy Bridge 的服务,通过duckdb 扩展了pg 对于数据分析的能力,官方发布的内容值得学习下 参考玩法 说明 实际上目前社区也有一个pg 的duckdb_fdw ,也值得体验下,Crunchy Bridge 不是一个fdw 扩展,反而是使用了类似ci 阅读全文

posted @ 2024-07-14 08:00 荣锋亮 阅读(40) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 ··· 56 下一页

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示