Fork me on GitHub
摘要: 本项目收集大量的涉及政治、色情、辱骂、暴力违禁等敏感数据,据此微调roberta模型,根据模型对文本内容进行分类打分,进行检测审核; 针对业务场景下个性化的数据和需求,可自由定制审核模型的阈值参数,合适的策略配置将有效提升内容审核的召回率和精确率。 This project collects a l 阅读全文
posted @ 2024-07-01 19:42 石头木 阅读(4) 评论(0) 推荐(0) 编辑
摘要: UniMS-RAG: Unified Multi-Source RAG for Personalised Dialogue(https://arxiv.org/abs/2401.13256) https://github.com/jiangnanboy/paper_read_note 一.概述 本研 阅读全文
posted @ 2024-06-18 19:42 石头木 阅读(10) 评论(0) 推荐(0) 编辑
摘要: T-RAG: LESSONS FROM THE LLM TRENCHES(https://arxiv.org/abs/2402.07483) https://github.com/jiangnanboy/paper_read_note 一.概述 大型语言模型(llm)越来越多地应用于各个领域,包括对 阅读全文
posted @ 2024-06-18 19:41 石头木 阅读(12) 评论(0) 推荐(0) 编辑
摘要: Corrective Retrieval Augmented Generation(https://arxiv.org/pdf/2401.15884.pdf) https://github.com/jiangnanboy/paper_read_note 一.序言 RAG即检索增强生成(retriev 阅读全文
posted @ 2024-06-18 19:39 石头木 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 实现一个简单的文档图像处理工具,主要功能包括复杂背景图像漂白,文字方向矫正,清晰增强,笔记去噪美化,去阴影,扭曲矫正,去黑点以及切边增强,后面会持续增加关于AI在文档图像上的应用功能。界面如下,有什么想法请联系我:https://github.com/jiangnanboy/docimg_tool 阅读全文
posted @ 2024-05-22 19:41 石头木 阅读(57) 评论(0) 推荐(0) 编辑
摘要: cleaning of llm corpus 大模型语料清洗 数据是人工智能领域发展的基础要素之一。随着大规模预训练模型及相关技术不断取得突破,在相应研究中使用高效数据处理工具提升数据质量变得越来越重要。llm_corpus_quality集成了包含清洗、敏感词过滤、广告词过滤、语料质量自动评估等功 阅读全文
posted @ 2024-01-13 20:22 石头木 阅读(688) 评论(0) 推荐(0) 编辑
摘要: 提示工程最佳实践 翻译自:https://mphr.notion.site/Prompt-Engineering-Best-Practices-0839585d4bce4c6abb0b551b2107a92a 改善LLM输出的提示技巧。 目录: Tip#1:清晰且具体的指令 Tip#2:给模型思考的 阅读全文
posted @ 2024-01-11 18:43 石头木 阅读(30) 评论(0) 推荐(0) 编辑
摘要: 机器学习系统设计的这个问题由两个主要构建块组成: 1-离线组件:该组件侧重于训练和验证推荐模型。 2-在线组件:该组件负责实时生成(推断)推荐。 最初的离线训练过程遵循经典的数据科学生命周期,从数据收集和转换为特征开始,到模型构建和验证结束。这些步骤的结果是捕获特征并存储在特征存储中的数据集,以及保 阅读全文
posted @ 2023-11-22 20:20 石头木 阅读(58) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2023-10-09 20:47 石头木 阅读(192) 评论(1) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2023-07-23 21:54 石头木 阅读(73) 评论(0) 推荐(0) 编辑