摘要:
本项目收集大量的涉及政治、色情、辱骂、暴力违禁等敏感数据,据此微调roberta模型,根据模型对文本内容进行分类打分,进行检测审核; 针对业务场景下个性化的数据和需求,可自由定制审核模型的阈值参数,合适的策略配置将有效提升内容审核的召回率和精确率。 This project collects a l 阅读全文
摘要:
UniMS-RAG: Unified Multi-Source RAG for Personalised Dialogue(https://arxiv.org/abs/2401.13256) https://github.com/jiangnanboy/paper_read_note 一.概述 本研 阅读全文
摘要:
T-RAG: LESSONS FROM THE LLM TRENCHES(https://arxiv.org/abs/2402.07483) https://github.com/jiangnanboy/paper_read_note 一.概述 大型语言模型(llm)越来越多地应用于各个领域,包括对 阅读全文
摘要:
Corrective Retrieval Augmented Generation(https://arxiv.org/pdf/2401.15884.pdf) https://github.com/jiangnanboy/paper_read_note 一.序言 RAG即检索增强生成(retriev 阅读全文
摘要:
实现一个简单的文档图像处理工具,主要功能包括复杂背景图像漂白,文字方向矫正,清晰增强,笔记去噪美化,去阴影,扭曲矫正,去黑点以及切边增强,后面会持续增加关于AI在文档图像上的应用功能。界面如下,有什么想法请联系我:https://github.com/jiangnanboy/docimg_tool 阅读全文
摘要:
cleaning of llm corpus 大模型语料清洗 数据是人工智能领域发展的基础要素之一。随着大规模预训练模型及相关技术不断取得突破,在相应研究中使用高效数据处理工具提升数据质量变得越来越重要。llm_corpus_quality集成了包含清洗、敏感词过滤、广告词过滤、语料质量自动评估等功 阅读全文
摘要:
提示工程最佳实践 翻译自:https://mphr.notion.site/Prompt-Engineering-Best-Practices-0839585d4bce4c6abb0b551b2107a92a 改善LLM输出的提示技巧。 目录: Tip#1:清晰且具体的指令 Tip#2:给模型思考的 阅读全文
摘要:
机器学习系统设计的这个问题由两个主要构建块组成: 1-离线组件:该组件侧重于训练和验证推荐模型。 2-在线组件:该组件负责实时生成(推断)推荐。 最初的离线训练过程遵循经典的数据科学生命周期,从数据收集和转换为特征开始,到模型构建和验证结束。这些步骤的结果是捕获特征并存储在特征存储中的数据集,以及保 阅读全文