09 2024 档案

kedro 的PartitionedDataset简单说明
摘要:kedro 的PartitionedDataset是一个比较强大的数据集处理模块,支持数据的分片加载以及分片写入能力,以下简单说明下 数据分片读取能力 参考catalog 配置 companies: type: partitions.PartitionedDataset path: s3://ked 阅读全文

posted @ 2024-09-30 08:00 荣锋亮 阅读(4) 评论(0) 推荐(0) 编辑

prompt-poet 参考使用
摘要:主要是一个简单的功能体验,包含了include 以及简单的jinja2 逻辑判断 模版定义 app.yaml.j2 {% include 'system_instruction.yml.j2' %} - name: system demo role: system content: | you ar 阅读全文

posted @ 2024-09-29 17:03 荣锋亮 阅读(12) 评论(0) 推荐(0) 编辑

rpyc python rpc 框架
摘要:rpyc 属于一个老牌项目了,支持rpc 模式的处理,同时支持面向服务的开发模式,包含了一些安全控制,支持服务注册,服务发现 包含的特性 透明,可以使用类似本地模式的方法访问 对称,client 以及server 都可以支持调用 支持同步以及异步操作 平台无关 低开销 安全,支持基于tls,以及ss 阅读全文

posted @ 2024-09-29 17:02 荣锋亮 阅读(35) 评论(0) 推荐(0) 编辑

prompt-poet 方便设计提示词的python 包
摘要:prompt-poet 方便设计提示词的python 包,基于yaml 以及jinja2 开发,prompt-poet 提供了灵活、动态的提示词创建prompt-poet 饿的提示词模版混合了yaml 以及jinja2 prompt-poet 模版处理 渲染,初始阶段基于了jinja2,此阶段进行数 阅读全文

posted @ 2024-09-29 17:01 荣锋亮 阅读(28) 评论(0) 推荐(0) 编辑

petl 集成ossfs 实现阿里云oss 数据的简单处理
摘要:主要是一个简单演示,基于petl remote source 能力,实现本地csv 数据读取之后写入远端oss 中 参考代码 注意需要明确使用remote source,petl 在处理上不像pandas 等类似框架可以直接基于文件系统的protocol 自动进行底层文件系统的选择 安装依赖 pip 阅读全文

posted @ 2024-09-29 06:42 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

dremio 25.1 github 代码变动
摘要:dremio 25.1 已经发布了好几个礼拜了,以前说过github 社区版25.1 版本的没有提交最新的,最近看了下github 已经提交新的了 而且这次应该是比较完整的 构建上的一些问题 jdk 依赖 这个保持不变,同时看官方一些信息对于maven 构建已经调整了,有了不错的支持 ui 组件 目 阅读全文

posted @ 2024-09-28 11:30 荣锋亮 阅读(12) 评论(0) 推荐(0) 编辑

petl 轻量级的python etl 处理框架
摘要:petl 轻量级通用的python etl 处理框架 petl 目的 petl 目的是简单,性能上以及对于处理大数据集可能不是很适合,就是需要使用dask,pandas 等这类的 etl 能力 基于了延迟计算的能力 函数以及面向对象的编程方式 交互式使用 可以集成Ipython notebook c 阅读全文

posted @ 2024-09-28 00:01 荣锋亮 阅读(36) 评论(0) 推荐(0) 编辑

whisperfile llamafile 提供的基于whisper.cpp的快速运行whisper的应用
摘要:对于llamafile 大家可能都听说过,最近llamafile 提供了基于whisper.cpp 的whisperfile ,我们可以快速使用 whisperfile 进行翻译处理 参考使用 下载whisperfile 以及模型 whisperfile 可以直接从github 下载 模型地址: h 阅读全文

posted @ 2024-09-27 08:08 荣锋亮 阅读(11) 评论(0) 推荐(0) 编辑

通过ossfs fsspec 扩展访问oss 数据
摘要:尽管oss 对于s3 客户端具有兼容性,直接通过s3fs 是可以直接访问oss 的,但是有不少缺陷(比如ls 的支持就有问题)ossfs 是基于oss client 实现的标准 fsspec 扩展,使用上很不错,对于文件系统常见操作支持的很好,以下是一个简单使用说明 参考使用 安装 pip inst 阅读全文

posted @ 2024-09-26 08:14 荣锋亮 阅读(46) 评论(0) 推荐(0) 编辑

kedro package 项目运行内部处理
摘要:kedro package 会将开发的data pipeline 项目构建为一个标准的python whl 格式包(build 模块),之后我们就可以直接基于项目模块运行开发的pipeline 了,以下简单说明下内部处理 项目结构 为了将kedro pipeline 项目提供为一个可以通过模块直接运 阅读全文

posted @ 2024-09-26 08:00 荣锋亮 阅读(14) 评论(0) 推荐(0) 编辑

kedro parameters 简单使用
摘要:kedro 的parameters还是比较强大的,我们直接可以基于配置,或者运行时定义就可以方便的使用配置参数,以下是使用的简单说明 定义parameters 一般是在conf/base/parameters.yml 中,当然也可以配置特定pipeline 的parameters 参考 name: 阅读全文

posted @ 2024-09-25 05:56 荣锋亮 阅读(11) 评论(0) 推荐(0) 编辑

metaflow netflix开源的数据科学ML&AI 框架
摘要:metaflow netflix开源的数据科学ML&AI 框架,类似的也有kedro,metaflow 相比kedro 来说对于云原生周边支持的更加友好 一张图了解metaflow 能力 如下图,很清晰的说明了metaflow 的能力,而且都是基于代码声明的 说明 metaflow 官方文档比较详细 阅读全文

posted @ 2024-09-24 07:55 荣锋亮 阅读(35) 评论(0) 推荐(0) 编辑

kedro data catalog version 处理简单说明
摘要:kedro data catalog 支持version 化,这样可以方便的使用特定时间的多数据,以下是对于version 的简单说明 参考使用 pikachu: type: kedro_pokemon.datasets.image_dataset.ImageDataset filepath: da 阅读全文

posted @ 2024-09-23 00:02 荣锋亮 阅读(7) 评论(0) 推荐(0) 编辑

kedro 参考架构
摘要:内容来自官方文档,主要是一个记录,方便学习使用,通过此图我们可以快速的了解kedro的开发机制以及内部运行,有助于阅读源码对于kedro进行扩展 参考图 说明 上图中包含了kedro project 说明了对于pipeline 开发者的代码结构以及开发流程(一般我们基于标准模版开发就可以了),ked 阅读全文

posted @ 2024-09-22 06:41 荣锋亮 阅读(16) 评论(0) 推荐(0) 编辑

kedro package 命令内部处理简单说明
摘要:kedro package 是一个比较方便的能力,可以将我们开发的data pipeline 打包为python 包,方便分发以及使用,以下简单说明下内部实现 参考内部处理 代码 可以看到内部并没有特殊的地方,对于标准python whl 文件基于了build 模块进行构建,对于配置部分使用了tar 阅读全文

posted @ 2024-09-21 06:57 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

kedro 简单试用
摘要:主要是一个简单学习试用 环境准备 安装kedro python -m venv venv source venv/bin/activate pip install kedro minio s3 存储 为了方便测试使用了s3 进行数据存储,注意需要同时安装 version: "3" services: 阅读全文

posted @ 2024-09-20 06:02 荣锋亮 阅读(17) 评论(0) 推荐(0) 编辑

qwen2.5 发布
摘要:就在今天qwen2.5 发布了,同时集成ollama 相关的镜像官方也提供了,对于函数调用的模版也支持已经修改了 参考Modilefile 参考新的配置参数 {{ if .Messages }} {{- if .Tools }}<|im_start|>system {{- if .System }} 阅读全文

posted @ 2024-09-19 08:15 荣锋亮 阅读(349) 评论(0) 推荐(0) 编辑

kedro 创建模块化数据科学pipeline 的python 框
摘要:kedro 创建模块化数据科学pipeline 的python 框架 包含的特性 pipeline 可视化,基于了kedro-viz data catalog 轻量级的data connenctors 可以方便数据的读取以及保存,扩展上也比较强大 周边集成,可以方便的与apache airflow, 阅读全文

posted @ 2024-09-19 08:00 荣锋亮 阅读(18) 评论(0) 推荐(0) 编辑

chainlit 一些内置session 变量
摘要:chainlit 兼容扩展点不是很多,但是灵活性还是很不错的,比如我们可以自己基于session 实现一些数据在不同阶段的共享,当然chainlit也内置了一些 变量,可以方便使用 内置的变量 信息 user_session = user_sessions[context.session.id] # 阅读全文

posted @ 2024-09-18 00:03 荣锋亮 阅读(30) 评论(0) 推荐(0) 编辑

fastapi-events fastapi 异步事件分发处理扩展
摘要:fastapi-events fastapi 异步事件分发处理扩展,提供了本地,以及远程消息处理能力,同时包含了一些内置的handler,对于自定义handler 也是比较灵活的 参考使用 app.py from fastapi import FastAPI from fastapi.request 阅读全文

posted @ 2024-09-17 07:40 荣锋亮 阅读(20) 评论(0) 推荐(0) 编辑

faststream 测试简单说明
摘要:faststream 包含了TestBroker可以方便的进行测试,比如与pytest 集成 参考使用 app_test.py import pytest from faststream.redis import TestRedisBroker,RedisBroker broker = RedisB 阅读全文

posted @ 2024-09-16 00:02 荣锋亮 阅读(30) 评论(0) 推荐(0) 编辑

faststream 自己的asgi 实现
摘要:faststream 目前自己包含了一个asgi 的实现,可以快速实现api 能力,同时也可以与其他web 框架集成,以下是一个简单试用 参考代码 demo.py from faststream.redis import RedisBroker from faststream.asgi import 阅读全文

posted @ 2024-09-15 06:23 荣锋亮 阅读(15) 评论(0) 推荐(0) 编辑

faststream python 快速event 处理框架
摘要:faststream python 快速event 处理框架,asyncapi 文档生成 包含的特性 多broker 支持 基于pydantic 的数据校验 async api 文档生成 依赖注入支持 强大的扩展能力 不少框架的集成支持(fastapi web 框架) 支持自动代码生成 参考使用 基 阅读全文

posted @ 2024-09-14 06:12 荣锋亮 阅读(50) 评论(0) 推荐(0) 编辑

pandas-ai 基于LLM进行数据分析的python 框架
摘要:pandas-ai 基于LLM进行数据分析的python 框架 包含的特性 基于自然语言的数据查询 数据可视化 数据清理 特征生成 数据链接(支持链接多种不同的数据源) 说明 对于基于数据分析的场景pandas-ai 是一个值得尝试的工具,同时官方也微调了一个BambooLLM 的模型(基于mist 阅读全文

posted @ 2024-09-13 00:03 荣锋亮 阅读(53) 评论(0) 推荐(0) 编辑

PraisonAI 一个快速ai 开发集成工具
摘要:PraisonAI 一个快速ai 开发集成工具,在新版本中PraisonAI 基于unsloth 提供了快速大模型微调训练能力 训练参考使用 核心是包装的unsloth 命令 praisonai train --model unsloth/Meta-Llama-3.1-8B-Instruct-bnb 阅读全文

posted @ 2024-09-12 08:00 荣锋亮 阅读(39) 评论(0) 推荐(0) 编辑

chainlit 持久化配置问题 null value in column "disableFeedback" of relation "steps"
摘要:实际上此问题在github 上已经存在了,解决方法很简单,就是对于sql 配置的去掉不能为空的判定 参考sql 修改 CREATE TABLE IF NOT EXISTS steps ( "id" UUID PRIMARY KEY, "name" TEXT NOT NULL, "type" TEXT 阅读全文

posted @ 2024-09-11 08:00 荣锋亮 阅读(14) 评论(0) 推荐(0) 编辑

chainlit s3 minio 存储集成配置
摘要:chainlit s3 默认对于minio 的支持没有明确说明,但是我们可以通过配置解决(环境变量以及~/.aws/config 都可以) 使用 代码配置 import chainlit as cl import chainlit.data as cl_data from chainlit.data 阅读全文

posted @ 2024-09-10 07:28 荣锋亮 阅读(37) 评论(0) 推荐(0) 编辑

litellm proxy ui 的处理
摘要:litellm proxy ui 关于static 的处理是基于了fastapi 的StaticFiles,使用了绝对路径配置的,以下是一个简单说明 参考代码 litellm/proxy/proxy_server.py current_dir = os.path.dirname(os.path.ab 阅读全文

posted @ 2024-09-09 00:03 荣锋亮 阅读(17) 评论(0) 推荐(0) 编辑

fastapi 使用package 提供web 静态资源
摘要:日常开发中对于静态资源的处理方法很多,但是如果静态资源也可以像包一样集成发布就会比较方便对于我们实际软件部署就会比较方便 以下是关于fastapi 通过package 提供静态资源 参考代码 安装 静态资源我们使用了bootstrap4,基于这个包提供 app.py from fastapi imp 阅读全文

posted @ 2024-09-08 00:01 荣锋亮 阅读(40) 评论(0) 推荐(0) 编辑

trafilatura python web 数据获取库
摘要:trafilatura python web 数据获取库,比较适合进行爬虫,数据提取,支持输出数据为csv,json,html,md,txt,xml 包含的特性 高级web 爬虫以及文本发现 并行处理在线以及离线输入内容 灵活的配置支持,包含了元数据,格式,链接,表格 多输出格式,包含了文本,mar 阅读全文

posted @ 2024-09-07 07:37 荣锋亮 阅读(45) 评论(0) 推荐(0) 编辑

jvm 自定义dns
摘要:对于jvm 进行自定义dns 可以解决不少问题(比如特定系统需要一个额外的域名改写,但是并不希望进行全局修改) 对于java 1.4-8 我们是可以直接进行dns 配置的(系统属性就可以了),之后的版本就不行了,具体参考dnsjava 的说明 实际配置 参考配置 -Dsun.net.spi.name 阅读全文

posted @ 2024-09-06 00:07 荣锋亮 阅读(34) 评论(0) 推荐(0) 编辑

dremio 25.1 发布
摘要:就在今天dremio 发布了25.1 版本(社区版)同时提供了docker镜像以及下载地址 说明 目前官方还缺少release note 说明,目前来说github 代码尽管提交了,但是不是新的(只更新了maven package version),从简单测试上,的确有一些bug 修复,但是目前官方 阅读全文

posted @ 2024-09-05 18:45 荣锋亮 阅读(17) 评论(0) 推荐(0) 编辑

一些基于LLM可以进行web 检索的开源工具
摘要:简单记录下,目前不少内部都会使用到langchain(毕竟提供了不少现在方便的工具包装) ,同时对于web 内容处理很多也会选择基于无头浏览器模式,对于html 内容为了方便llm 处理好多框架会优先转换为markdown 格式的,对于长内容同时也会进行chunk 拆分,规避大模型上下文限制问题 说 阅读全文

posted @ 2024-09-05 08:00 荣锋亮 阅读(78) 评论(0) 推荐(0) 编辑

typer python cli 开发框架
摘要:typer 是一个基于python type hints 的快速强大的cli 开发框架,由fastapi 框架的作者开发,是一个很不错的工具 包含的特性 使用简单 简单 支持开发复杂cli 可以执行运行script 参考使用 安装 python -m venv venv source venv/bi 阅读全文

posted @ 2024-09-04 06:36 荣锋亮 阅读(44) 评论(0) 推荐(0) 编辑

unstract 无代码运行api 以及etl pipeline 进行数据结构化的llm平台
摘要:unstract 无代码运行api 以及etl pipeline 进行数据结构化的llm平台 参考处理流程 分三步 通过prompt studio 进行提示词的处理,定义需要提取的字段 配置项目做为api 或者配置输入输出etl pipeline 部署data api 或者etl pipeline 阅读全文

posted @ 2024-09-03 07:15 荣锋亮 阅读(31) 评论(0) 推荐(0) 编辑

一些不错的LLM 结构化输出库
摘要:结构化输出对于LLM 是一个比较重要的功能,以下是一个开源不错的工具,可以方便使用 简单说明 outlines以及instructor 是很不错的工具对于基于api 的推荐使用instructor,kor 以及langchain 集成比较好guardrails 也算是一个不错的工具提供了结构化输出的 阅读全文

posted @ 2024-09-02 08:00 荣锋亮 阅读(78) 评论(0) 推荐(0) 编辑

guardrailsai llm 校验工具
摘要:guardrails ai 提供了的llm 校验能力,同时提供了一个hub 平台,可以方便使用一些现成的validators 特性 guardrails ai 对于input 以及output 进行check,确保数据的准确性,减少风险 guardrails ai 可以帮助生成结构化数据 包含了一个 阅读全文

posted @ 2024-09-01 06:35 荣锋亮 阅读(18) 评论(0) 推荐(0) 编辑

导航