随笔分类 -  machine learning && LLM

上一页 1 ··· 3 4 5 6 7

机器学习&&LLM
tesseract-wasm 基于webassembly 的tesseract npm 包
摘要:tesseract 是一个开源的ocr 工具,社区提供可一个基于webassembly 的tesseract-wasm ,可以方便直接基于浏览器的ocr 识别 以下是一个简单的试用 项目代码 package.json { "name": "tesseract", "version": "1.0.0" 阅读全文

posted @ 2023-11-01 21:43 荣锋亮 阅读(98) 评论(0) 推荐(0) 编辑

label-studio docker-compose 运行试用
摘要:label-studio 是一个支持多格式的数据标注工具,以下是基于docker-compose 运行的试用 环境准备 docker-compose version: "3.9" services: nginx: image: heartexlabs/label-studio:latest port 阅读全文

posted @ 2023-10-14 09:48 荣锋亮 阅读(665) 评论(0) 推荐(0) 编辑

一些开源数据标注工具
摘要:整理一些工具,方便学习使用 doccano 主要是进行文本处理的 label-studio 比较强大的工具,支持多种数据处理,目前迭代升级也比较快速 audino 进行声音标注的工具,目前不是很活跃了,好久没新的提交信息了 abel-studio-converter label-studio 提供的 阅读全文

posted @ 2023-10-14 08:42 荣锋亮 阅读(469) 评论(0) 推荐(0) 编辑

gradio 机器学习应用共享框架
摘要:gradio 是一个机器学习应用共享框架,不少开源机器学习模型都基于gradio 提供了可以快速体验模型的ui 参考使用 安装 pip install gradio 简单代码 app.py import gradio as gr def greet(name): return "Hello " + 阅读全文

posted @ 2023-10-02 20:56 荣锋亮 阅读(265) 评论(0) 推荐(0) 编辑

modin pandas 大规模数据处理方案
摘要:modin 是一个可以快速替换原生pandas 的方案,我们只需要替换一个简单的引用,就可以将pandas 的数据处理速度有很大的提升modin 支持与不少框架的集成(ray, dask,unidisk),目前modin 对于常用read 操作都有很不错的支持,参考图 参考架构 如下图,可以看出mo 阅读全文

posted @ 2023-10-01 21:57 荣锋亮 阅读(98) 评论(0) 推荐(0) 编辑

一些不错的python 特征工程包
摘要:特征工程在机器学习中是比较重要的,而且也是比较花费时间的,而且对于不同场景的业务(序列,机器视觉,NLP)会有不同的处理方式,整理了一些日常使用比较多的工具,可以参考 工具包 scikit-learn 比较老牌了,提供了不少特征工程的工具包,同时也提供了不少相关的算法实现 autofeat 实现上与 阅读全文

posted @ 2023-09-20 09:15 荣锋亮 阅读(110) 评论(0) 推荐(0) 编辑

feast 开源feature store
摘要:对于机器学习特征处理是一个比较重要,特征的质量会严重影响模型的质量,而且很多时候我们都是希望实时的特征数据feast 是一个开源的特征存储实现,包含了离线以及实时特征的存储以及获取(包含了sdk,可以进行特征的获取) 参考架构 包含的组件:registry: 对象存储,持久化特征,我们可以通过sdk 阅读全文

posted @ 2023-09-19 14:11 荣锋亮 阅读(291) 评论(0) 推荐(0) 编辑

上一页 1 ··· 3 4 5 6 7

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示