上一页 1 2 3 4 5 6 7 ··· 124 下一页

2024年10月4日

dremio 25.1 版本开始支持sql 预编译处理了

摘要: dremio 从25.1 版本开始,支持sql 预编译了,可以更好的提升系统的安全性 参考使用 传统jdbc 模式 Connection conn = DriverManager.getConnection("jdbc:dremio:direct=localhost:31010;schema=sys 阅读全文

posted @ 2024-10-04 14:24 荣锋亮 阅读(16) 评论(0) 推荐(0) 编辑

lazy_loader attach_stub一种变体玩法

摘要: 此方法在scikit-image包中可以明显看到使用 玩法流程 __init__.py直接基于attach_stub 进行定义懒加载,以后的使用就同时标准玩法了 添加__init__.pyi 进行显示的引入定义,方便实现类型检查以及ide 的自动提示 一个参考玩法 __init__.py 定义 im 阅读全文

posted @ 2024-10-04 08:00 荣锋亮 阅读(3) 评论(0) 推荐(0) 编辑

2024年10月3日

dremio25.1.1 发布

摘要: 就在昨天dremio 发布了25.1.1 主要是一些bug 的fix,尤其是在25.1 版本对于script 保存的问题 说明 完整的变动信息可以参考官方文档,目前oss 代码以及下载包,docker 镜像已经都上传了,可以体验下 参考资料 https://docs.dremio.com/curre 阅读全文

posted @ 2024-10-03 12:56 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

lazy_loader python 子包以及函数懒加载框架

摘要: lazy_loader python 子包以及函数懒加载框架, 内部处理上是基于了importlib.import_module 进行动态加载 包含的特性 可以确保子模块对于用户的可见行,不引起而外的开销 允许外部库在使用的时候被加载,提升导入时间 说明 此包在kedro 的datasets 模块中 阅读全文

posted @ 2024-10-03 08:00 荣锋亮 阅读(15) 评论(0) 推荐(0) 编辑

2024年10月2日

dynaconf python 配置管理库

摘要: dynaconf python 配置管理库 包含的特性 基于12 factor 原则 设置管理(默认值、校验、解析、模版) 保护敏感信息(比如用户密码) 多文件格式支持(toml,yaml, ini,json,py) 支持环境变量重写 可选的分层多环境配置支持 支持外部配置存储(vault,redi 阅读全文

posted @ 2024-10-02 07:24 荣锋亮 阅读(20) 评论(0) 推荐(0) 编辑

2024年10月1日

kedro IncrementalDataset 简单说明

摘要: IncrementalDataset 实现了一种增量数据处理的能力,基于了PartitionedDataset 同时包含了checkpoint 确保数据处理的准确性,对于 checkpoint 可以配置自己的函数 参考定义 参考catalog 定义 my_partitioned_dataset: t 阅读全文

posted @ 2024-10-01 08:00 荣锋亮 阅读(3) 评论(0) 推荐(0) 编辑

2024年9月30日

kedro 的PartitionedDataset简单说明

摘要: kedro 的PartitionedDataset是一个比较强大的数据集处理模块,支持数据的分片加载以及分片写入能力,以下简单说明下 数据分片读取能力 参考catalog 配置 companies: type: partitions.PartitionedDataset path: s3://ked 阅读全文

posted @ 2024-09-30 08:00 荣锋亮 阅读(4) 评论(0) 推荐(0) 编辑

2024年9月29日

prompt-poet 参考使用

摘要: 主要是一个简单的功能体验,包含了include 以及简单的jinja2 逻辑判断 模版定义 app.yaml.j2 {% include 'system_instruction.yml.j2' %} - name: system demo role: system content: | you ar 阅读全文

posted @ 2024-09-29 17:03 荣锋亮 阅读(12) 评论(0) 推荐(0) 编辑

rpyc python rpc 框架

摘要: rpyc 属于一个老牌项目了,支持rpc 模式的处理,同时支持面向服务的开发模式,包含了一些安全控制,支持服务注册,服务发现 包含的特性 透明,可以使用类似本地模式的方法访问 对称,client 以及server 都可以支持调用 支持同步以及异步操作 平台无关 低开销 安全,支持基于tls,以及ss 阅读全文

posted @ 2024-09-29 17:02 荣锋亮 阅读(34) 评论(0) 推荐(0) 编辑

prompt-poet 方便设计提示词的python 包

摘要: prompt-poet 方便设计提示词的python 包,基于yaml 以及jinja2 开发,prompt-poet 提供了灵活、动态的提示词创建prompt-poet 饿的提示词模版混合了yaml 以及jinja2 prompt-poet 模版处理 渲染,初始阶段基于了jinja2,此阶段进行数 阅读全文

posted @ 2024-09-29 17:01 荣锋亮 阅读(28) 评论(0) 推荐(0) 编辑

petl 集成ossfs 实现阿里云oss 数据的简单处理

摘要: 主要是一个简单演示,基于petl remote source 能力,实现本地csv 数据读取之后写入远端oss 中 参考代码 注意需要明确使用remote source,petl 在处理上不像pandas 等类似框架可以直接基于文件系统的protocol 自动进行底层文件系统的选择 安装依赖 pip 阅读全文

posted @ 2024-09-29 06:42 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

2024年9月28日

dremio 25.1 github 代码变动

摘要: dremio 25.1 已经发布了好几个礼拜了,以前说过github 社区版25.1 版本的没有提交最新的,最近看了下github 已经提交新的了 而且这次应该是比较完整的 构建上的一些问题 jdk 依赖 这个保持不变,同时看官方一些信息对于maven 构建已经调整了,有了不错的支持 ui 组件 目 阅读全文

posted @ 2024-09-28 11:30 荣锋亮 阅读(11) 评论(0) 推荐(0) 编辑

petl 轻量级的python etl 处理框架

摘要: petl 轻量级通用的python etl 处理框架 petl 目的 petl 目的是简单,性能上以及对于处理大数据集可能不是很适合,就是需要使用dask,pandas 等这类的 etl 能力 基于了延迟计算的能力 函数以及面向对象的编程方式 交互式使用 可以集成Ipython notebook c 阅读全文

posted @ 2024-09-28 00:01 荣锋亮 阅读(29) 评论(0) 推荐(0) 编辑

2024年9月27日

whisperfile llamafile 提供的基于whisper.cpp的快速运行whisper的应用

摘要: 对于llamafile 大家可能都听说过,最近llamafile 提供了基于whisper.cpp 的whisperfile ,我们可以快速使用 whisperfile 进行翻译处理 参考使用 下载whisperfile 以及模型 whisperfile 可以直接从github 下载 模型地址: h 阅读全文

posted @ 2024-09-27 08:08 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

2024年9月26日

通过ossfs fsspec 扩展访问oss 数据

摘要: 尽管oss 对于s3 客户端具有兼容性,直接通过s3fs 是可以直接访问oss 的,但是有不少缺陷(比如ls 的支持就有问题)ossfs 是基于oss client 实现的标准 fsspec 扩展,使用上很不错,对于文件系统常见操作支持的很好,以下是一个简单使用说明 参考使用 安装 pip inst 阅读全文

posted @ 2024-09-26 08:14 荣锋亮 阅读(43) 评论(0) 推荐(0) 编辑

kedro package 项目运行内部处理

摘要: kedro package 会将开发的data pipeline 项目构建为一个标准的python whl 格式包(build 模块),之后我们就可以直接基于项目模块运行开发的pipeline 了,以下简单说明下内部处理 项目结构 为了将kedro pipeline 项目提供为一个可以通过模块直接运 阅读全文

posted @ 2024-09-26 08:00 荣锋亮 阅读(14) 评论(0) 推荐(0) 编辑

2024年9月25日

kedro parameters 简单使用

摘要: kedro 的parameters还是比较强大的,我们直接可以基于配置,或者运行时定义就可以方便的使用配置参数,以下是使用的简单说明 定义parameters 一般是在conf/base/parameters.yml 中,当然也可以配置特定pipeline 的parameters 参考 name: 阅读全文

posted @ 2024-09-25 05:56 荣锋亮 阅读(11) 评论(0) 推荐(0) 编辑

2024年9月24日

metaflow netflix开源的数据科学ML&AI 框架

摘要: metaflow netflix开源的数据科学ML&AI 框架,类似的也有kedro,metaflow 相比kedro 来说对于云原生周边支持的更加友好 一张图了解metaflow 能力 如下图,很清晰的说明了metaflow 的能力,而且都是基于代码声明的 说明 metaflow 官方文档比较详细 阅读全文

posted @ 2024-09-24 07:55 荣锋亮 阅读(34) 评论(0) 推荐(0) 编辑

2024年9月23日

kedro data catalog version 处理简单说明

摘要: kedro data catalog 支持version 化,这样可以方便的使用特定时间的多数据,以下是对于version 的简单说明 参考使用 pikachu: type: kedro_pokemon.datasets.image_dataset.ImageDataset filepath: da 阅读全文

posted @ 2024-09-23 00:02 荣锋亮 阅读(7) 评论(0) 推荐(0) 编辑

2024年9月22日

kedro 参考架构

摘要: 内容来自官方文档,主要是一个记录,方便学习使用,通过此图我们可以快速的了解kedro的开发机制以及内部运行,有助于阅读源码对于kedro进行扩展 参考图 说明 上图中包含了kedro project 说明了对于pipeline 开发者的代码结构以及开发流程(一般我们基于标准模版开发就可以了),ked 阅读全文

posted @ 2024-09-22 06:41 荣锋亮 阅读(15) 评论(0) 推荐(0) 编辑

2024年9月21日

kedro package 命令内部处理简单说明

摘要: kedro package 是一个比较方便的能力,可以将我们开发的data pipeline 打包为python 包,方便分发以及使用,以下简单说明下内部实现 参考内部处理 代码 可以看到内部并没有特殊的地方,对于标准python whl 文件基于了build 模块进行构建,对于配置部分使用了tar 阅读全文

posted @ 2024-09-21 06:57 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

2024年9月20日

kedro 简单试用

摘要: 主要是一个简单学习试用 环境准备 安装kedro python -m venv venv source venv/bin/activate pip install kedro minio s3 存储 为了方便测试使用了s3 进行数据存储,注意需要同时安装 version: "3" services: 阅读全文

posted @ 2024-09-20 06:02 荣锋亮 阅读(17) 评论(0) 推荐(0) 编辑

2024年9月19日

qwen2.5 发布

摘要: 就在今天qwen2.5 发布了,同时集成ollama 相关的镜像官方也提供了,对于函数调用的模版也支持已经修改了 参考Modilefile 参考新的配置参数 {{ if .Messages }} {{- if .Tools }}<|im_start|>system {{- if .System }} 阅读全文

posted @ 2024-09-19 08:15 荣锋亮 阅读(346) 评论(0) 推荐(0) 编辑

kedro 创建模块化数据科学pipeline 的python 框

摘要: kedro 创建模块化数据科学pipeline 的python 框架 包含的特性 pipeline 可视化,基于了kedro-viz data catalog 轻量级的data connenctors 可以方便数据的读取以及保存,扩展上也比较强大 周边集成,可以方便的与apache airflow, 阅读全文

posted @ 2024-09-19 08:00 荣锋亮 阅读(18) 评论(0) 推荐(0) 编辑

2024年9月18日

chainlit 一些内置session 变量

摘要: chainlit 兼容扩展点不是很多,但是灵活性还是很不错的,比如我们可以自己基于session 实现一些数据在不同阶段的共享,当然chainlit也内置了一些 变量,可以方便使用 内置的变量 信息 user_session = user_sessions[context.session.id] # 阅读全文

posted @ 2024-09-18 00:03 荣锋亮 阅读(30) 评论(0) 推荐(0) 编辑

2024年9月17日

fastapi-events fastapi 异步事件分发处理扩展

摘要: fastapi-events fastapi 异步事件分发处理扩展,提供了本地,以及远程消息处理能力,同时包含了一些内置的handler,对于自定义handler 也是比较灵活的 参考使用 app.py from fastapi import FastAPI from fastapi.request 阅读全文

posted @ 2024-09-17 07:40 荣锋亮 阅读(19) 评论(0) 推荐(0) 编辑

2024年9月16日

faststream 测试简单说明

摘要: faststream 包含了TestBroker可以方便的进行测试,比如与pytest 集成 参考使用 app_test.py import pytest from faststream.redis import TestRedisBroker,RedisBroker broker = RedisB 阅读全文

posted @ 2024-09-16 00:02 荣锋亮 阅读(30) 评论(0) 推荐(0) 编辑

2024年9月15日

faststream 自己的asgi 实现

摘要: faststream 目前自己包含了一个asgi 的实现,可以快速实现api 能力,同时也可以与其他web 框架集成,以下是一个简单试用 参考代码 demo.py from faststream.redis import RedisBroker from faststream.asgi import 阅读全文

posted @ 2024-09-15 06:23 荣锋亮 阅读(15) 评论(0) 推荐(0) 编辑

2024年9月14日

faststream python 快速event 处理框架

摘要: faststream python 快速event 处理框架,asyncapi 文档生成 包含的特性 多broker 支持 基于pydantic 的数据校验 async api 文档生成 依赖注入支持 强大的扩展能力 不少框架的集成支持(fastapi web 框架) 支持自动代码生成 参考使用 基 阅读全文

posted @ 2024-09-14 06:12 荣锋亮 阅读(48) 评论(0) 推荐(0) 编辑

2024年9月13日

pandas-ai 基于LLM进行数据分析的python 框架

摘要: pandas-ai 基于LLM进行数据分析的python 框架 包含的特性 基于自然语言的数据查询 数据可视化 数据清理 特征生成 数据链接(支持链接多种不同的数据源) 说明 对于基于数据分析的场景pandas-ai 是一个值得尝试的工具,同时官方也微调了一个BambooLLM 的模型(基于mist 阅读全文

posted @ 2024-09-13 00:03 荣锋亮 阅读(50) 评论(0) 推荐(0) 编辑

2024年9月12日

PraisonAI 一个快速ai 开发集成工具

摘要: PraisonAI 一个快速ai 开发集成工具,在新版本中PraisonAI 基于unsloth 提供了快速大模型微调训练能力 训练参考使用 核心是包装的unsloth 命令 praisonai train --model unsloth/Meta-Llama-3.1-8B-Instruct-bnb 阅读全文

posted @ 2024-09-12 08:00 荣锋亮 阅读(38) 评论(0) 推荐(0) 编辑

2024年9月11日

chainlit 持久化配置问题 null value in column "disableFeedback" of relation "steps"

摘要: 实际上此问题在github 上已经存在了,解决方法很简单,就是对于sql 配置的去掉不能为空的判定 参考sql 修改 CREATE TABLE IF NOT EXISTS steps ( "id" UUID PRIMARY KEY, "name" TEXT NOT NULL, "type" TEXT 阅读全文

posted @ 2024-09-11 08:00 荣锋亮 阅读(13) 评论(0) 推荐(0) 编辑

2024年9月10日

chainlit s3 minio 存储集成配置

摘要: chainlit s3 默认对于minio 的支持没有明确说明,但是我们可以通过配置解决(环境变量以及~/.aws/config 都可以) 使用 代码配置 import chainlit as cl import chainlit.data as cl_data from chainlit.data 阅读全文

posted @ 2024-09-10 07:28 荣锋亮 阅读(37) 评论(0) 推荐(0) 编辑

2024年9月9日

litellm proxy ui 的处理

摘要: litellm proxy ui 关于static 的处理是基于了fastapi 的StaticFiles,使用了绝对路径配置的,以下是一个简单说明 参考代码 litellm/proxy/proxy_server.py current_dir = os.path.dirname(os.path.ab 阅读全文

posted @ 2024-09-09 00:03 荣锋亮 阅读(17) 评论(0) 推荐(0) 编辑

2024年9月8日

fastapi 使用package 提供web 静态资源

摘要: 日常开发中对于静态资源的处理方法很多,但是如果静态资源也可以像包一样集成发布就会比较方便对于我们实际软件部署就会比较方便 以下是关于fastapi 通过package 提供静态资源 参考代码 安装 静态资源我们使用了bootstrap4,基于这个包提供 app.py from fastapi imp 阅读全文

posted @ 2024-09-08 00:01 荣锋亮 阅读(39) 评论(0) 推荐(0) 编辑

2024年9月7日

trafilatura python web 数据获取库

摘要: trafilatura python web 数据获取库,比较适合进行爬虫,数据提取,支持输出数据为csv,json,html,md,txt,xml 包含的特性 高级web 爬虫以及文本发现 并行处理在线以及离线输入内容 灵活的配置支持,包含了元数据,格式,链接,表格 多输出格式,包含了文本,mar 阅读全文

posted @ 2024-09-07 07:37 荣锋亮 阅读(45) 评论(0) 推荐(0) 编辑

2024年9月6日

jvm 自定义dns

摘要: 对于jvm 进行自定义dns 可以解决不少问题(比如特定系统需要一个额外的域名改写,但是并不希望进行全局修改) 对于java 1.4-8 我们是可以直接进行dns 配置的(系统属性就可以了),之后的版本就不行了,具体参考dnsjava 的说明 实际配置 参考配置 -Dsun.net.spi.name 阅读全文

posted @ 2024-09-06 00:07 荣锋亮 阅读(34) 评论(0) 推荐(0) 编辑

2024年9月5日

dremio 25.1 发布

摘要: 就在今天dremio 发布了25.1 版本(社区版)同时提供了docker镜像以及下载地址 说明 目前官方还缺少release note 说明,目前来说github 代码尽管提交了,但是不是新的(只更新了maven package version),从简单测试上,的确有一些bug 修复,但是目前官方 阅读全文

posted @ 2024-09-05 18:45 荣锋亮 阅读(17) 评论(0) 推荐(0) 编辑

一些基于LLM可以进行web 检索的开源工具

摘要: 简单记录下,目前不少内部都会使用到langchain(毕竟提供了不少现在方便的工具包装) ,同时对于web 内容处理很多也会选择基于无头浏览器模式,对于html 内容为了方便llm 处理好多框架会优先转换为markdown 格式的,对于长内容同时也会进行chunk 拆分,规避大模型上下文限制问题 说 阅读全文

posted @ 2024-09-05 08:00 荣锋亮 阅读(75) 评论(0) 推荐(0) 编辑

2024年9月4日

typer python cli 开发框架

摘要: typer 是一个基于python type hints 的快速强大的cli 开发框架,由fastapi 框架的作者开发,是一个很不错的工具 包含的特性 使用简单 简单 支持开发复杂cli 可以执行运行script 参考使用 安装 python -m venv venv source venv/bi 阅读全文

posted @ 2024-09-04 06:36 荣锋亮 阅读(44) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 ··· 124 下一页

导航