随笔分类 -  machine learning && LLM

机器学习&&LLM
chainlit 一些外部集成部署方法
摘要:chainlit 对于部署支持多种模式,比如直接all-in-one 的,基于fastapi 集成的(api 模式),基于copilot (web 地址 ),react (web 组件),以及其他外部集成,比如slack,team,discord 等,以下简单说明下 模式说明 web app 模式 阅读全文

posted @ 2024-10-11 07:20 荣锋亮 阅读(182) 评论(0) 推荐(0) 编辑

kedro ossfs 支持说明
摘要:kedro 是基于fsspec 进行内部文件处理的,但是在对于是cloud remote 文件系统的时候是基于白名单处理的有缺陷,对于oss 支持就有问题(比如解析bucket),解决方法很多,一种是直接修改kedro.io.core 中的CLOUD_PROTOCOLS,还有一种就是通过python 阅读全文

posted @ 2024-10-05 06:27 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

lazy_loader attach_stub一种变体玩法
摘要:此方法在scikit-image包中可以明显看到使用 玩法流程 __init__.py直接基于attach_stub 进行定义懒加载,以后的使用就同时标准玩法了 添加__init__.pyi 进行显示的引入定义,方便实现类型检查以及ide 的自动提示 一个参考玩法 __init__.py 定义 im 阅读全文

posted @ 2024-10-04 08:00 荣锋亮 阅读(9) 评论(0) 推荐(0) 编辑

kedro IncrementalDataset 简单说明
摘要:IncrementalDataset 实现了一种增量数据处理的能力,基于了PartitionedDataset 同时包含了checkpoint 确保数据处理的准确性,对于 checkpoint 可以配置自己的函数 参考定义 参考catalog 定义 my_partitioned_dataset: t 阅读全文

posted @ 2024-10-01 08:00 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

kedro 的PartitionedDataset简单说明
摘要:kedro 的PartitionedDataset是一个比较强大的数据集处理模块,支持数据的分片加载以及分片写入能力,以下简单说明下 数据分片读取能力 参考catalog 配置 companies: type: partitions.PartitionedDataset path: s3://ked 阅读全文

posted @ 2024-09-30 08:00 荣锋亮 阅读(8) 评论(0) 推荐(0) 编辑

prompt-poet 参考使用
摘要:主要是一个简单的功能体验,包含了include 以及简单的jinja2 逻辑判断 模版定义 app.yaml.j2 {% include 'system_instruction.yml.j2' %} - name: system demo role: system content: | you ar 阅读全文

posted @ 2024-09-29 17:03 荣锋亮 阅读(22) 评论(0) 推荐(0) 编辑

prompt-poet 方便设计提示词的python 包
摘要:prompt-poet 方便设计提示词的python 包,基于yaml 以及jinja2 开发,prompt-poet 提供了灵活、动态的提示词创建prompt-poet 饿的提示词模版混合了yaml 以及jinja2 prompt-poet 模版处理 渲染,初始阶段基于了jinja2,此阶段进行数 阅读全文

posted @ 2024-09-29 17:01 荣锋亮 阅读(60) 评论(0) 推荐(0) 编辑

petl 集成ossfs 实现阿里云oss 数据的简单处理
摘要:主要是一个简单演示,基于petl remote source 能力,实现本地csv 数据读取之后写入远端oss 中 参考代码 注意需要明确使用remote source,petl 在处理上不像pandas 等类似框架可以直接基于文件系统的protocol 自动进行底层文件系统的选择 安装依赖 pip 阅读全文

posted @ 2024-09-29 06:42 荣锋亮 阅读(8) 评论(0) 推荐(0) 编辑

petl 轻量级的python etl 处理框架
摘要:petl 轻量级通用的python etl 处理框架 petl 目的 petl 目的是简单,性能上以及对于处理大数据集可能不是很适合,就是需要使用dask,pandas 等这类的 etl 能力 基于了延迟计算的能力 函数以及面向对象的编程方式 交互式使用 可以集成Ipython notebook c 阅读全文

posted @ 2024-09-28 00:01 荣锋亮 阅读(69) 评论(0) 推荐(0) 编辑

whisperfile llamafile 提供的基于whisper.cpp的快速运行whisper的应用
摘要:对于llamafile 大家可能都听说过,最近llamafile 提供了基于whisper.cpp 的whisperfile ,我们可以快速使用 whisperfile 进行翻译处理 参考使用 下载whisperfile 以及模型 whisperfile 可以直接从github 下载 模型地址: h 阅读全文

posted @ 2024-09-27 08:08 荣锋亮 阅读(33) 评论(0) 推荐(0) 编辑

kedro package 项目运行内部处理
摘要:kedro package 会将开发的data pipeline 项目构建为一个标准的python whl 格式包(build 模块),之后我们就可以直接基于项目模块运行开发的pipeline 了,以下简单说明下内部处理 项目结构 为了将kedro pipeline 项目提供为一个可以通过模块直接运 阅读全文

posted @ 2024-09-26 08:00 荣锋亮 阅读(20) 评论(0) 推荐(0) 编辑

kedro parameters 简单使用
摘要:kedro 的parameters还是比较强大的,我们直接可以基于配置,或者运行时定义就可以方便的使用配置参数,以下是使用的简单说明 定义parameters 一般是在conf/base/parameters.yml 中,当然也可以配置特定pipeline 的parameters 参考 name: 阅读全文

posted @ 2024-09-25 05:56 荣锋亮 阅读(13) 评论(0) 推荐(0) 编辑

metaflow netflix开源的数据科学ML&AI 框架
摘要:metaflow netflix开源的数据科学ML&AI 框架,类似的也有kedro,metaflow 相比kedro 来说对于云原生周边支持的更加友好 一张图了解metaflow 能力 如下图,很清晰的说明了metaflow 的能力,而且都是基于代码声明的 说明 metaflow 官方文档比较详细 阅读全文

posted @ 2024-09-24 07:55 荣锋亮 阅读(76) 评论(0) 推荐(0) 编辑

kedro data catalog version 处理简单说明
摘要:kedro data catalog 支持version 化,这样可以方便的使用特定时间的多数据,以下是对于version 的简单说明 参考使用 pikachu: type: kedro_pokemon.datasets.image_dataset.ImageDataset filepath: da 阅读全文

posted @ 2024-09-23 00:02 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

kedro 参考架构
摘要:内容来自官方文档,主要是一个记录,方便学习使用,通过此图我们可以快速的了解kedro的开发机制以及内部运行,有助于阅读源码对于kedro进行扩展 参考图 说明 上图中包含了kedro project 说明了对于pipeline 开发者的代码结构以及开发流程(一般我们基于标准模版开发就可以了),ked 阅读全文

posted @ 2024-09-22 06:41 荣锋亮 阅读(22) 评论(0) 推荐(0) 编辑

kedro package 命令内部处理简单说明
摘要:kedro package 是一个比较方便的能力,可以将我们开发的data pipeline 打包为python 包,方便分发以及使用,以下简单说明下内部实现 参考内部处理 代码 可以看到内部并没有特殊的地方,对于标准python whl 文件基于了build 模块进行构建,对于配置部分使用了tar 阅读全文

posted @ 2024-09-21 06:57 荣锋亮 阅读(8) 评论(0) 推荐(0) 编辑

kedro 简单试用
摘要:主要是一个简单学习试用 环境准备 安装kedro python -m venv venv source venv/bin/activate pip install kedro minio s3 存储 为了方便测试使用了s3 进行数据存储,注意需要同时安装 version: "3" services: 阅读全文

posted @ 2024-09-20 06:02 荣锋亮 阅读(37) 评论(0) 推荐(0) 编辑

qwen2.5 发布
摘要:就在今天qwen2.5 发布了,同时集成ollama 相关的镜像官方也提供了,对于函数调用的模版也支持已经修改了 参考Modilefile 参考新的配置参数 {{ if .Messages }} {{- if .Tools }}<|im_start|>system {{- if .System }} 阅读全文

posted @ 2024-09-19 08:15 荣锋亮 阅读(623) 评论(0) 推荐(0) 编辑

kedro 创建模块化数据科学pipeline 的python 框
摘要:kedro 创建模块化数据科学pipeline 的python 框架 包含的特性 pipeline 可视化,基于了kedro-viz data catalog 轻量级的data connenctors 可以方便数据的读取以及保存,扩展上也比较强大 周边集成,可以方便的与apache airflow, 阅读全文

posted @ 2024-09-19 08:00 荣锋亮 阅读(26) 评论(0) 推荐(0) 编辑

chainlit 一些内置session 变量
摘要:chainlit 兼容扩展点不是很多,但是灵活性还是很不错的,比如我们可以自己基于session 实现一些数据在不同阶段的共享,当然chainlit也内置了一些 变量,可以方便使用 内置的变量 信息 user_session = user_sessions[context.session.id] # 阅读全文

posted @ 2024-09-18 00:03 荣锋亮 阅读(60) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示