不常见或难以被LLM捕捉的数据

Posted on 2024-01-18 19:48 蝈蝈俊阅读(14) 评论(0) 编辑收藏举报

LLM（Large Language Models）稀缺的数据主要包括以下几类，这些也是微调（Fine-tuning）专业领域模型或RAG（Retrieval-Augmented Generation 检索增强生成）的机遇：

公司内部流程和政策

这些资料通常作为内部文档存在，涉及特定组织的运作机制。

图：公司内部流程和政策，独一无二、专用、私有

主观感受和个人体验：

包括个人的经历、记忆，以及情感和感觉，这些都是高度个性化的信息，这类信息通常是主观的且独一无二的。

图：每个人的经历都是独一无二的

实时动态信息

如股市动态、新闻事件的最新发展、天气预报等。这些实时动态信息变化迅速，LLM来不及捕捉。

图：一些人正在看实时大屏幕

专业或非公开领域信息

涉及专业领域的深度知识，例如某些高级科学研究、专业医疗知识、法律案例分析等，这些领域的信息可能不公开或仅在专业圈内流通，通常是独家的。

图：曼哈顿工程原子弹的研究这些肯定是专业和非公开的

个人隐私或保密信息

涉及个人隐私、商业秘密或国家安全等敏感信息，这些信息通常受到法律保护，在LLM的训练数据中是被严格禁止的。

图：同样的长袍和面具，保护个人隐私

极端情况或罕见事件

极端罕见的事件或特殊情况，由于其发生频率低，可能在训练数据中的代表性不足。

图：探索深海生物，少见，相关数据很少

总结

上面尽可能全面地涵盖了LLM在数据获取方面可能遇到的限制。然而，技术的不断进步和数据获取方法的改进可能会逐步解决其中的一些限制。

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 检索增强生成RAG

· LinkedIn：怎么稳定的让 LLM 返回结构化数据？

· [AI/GPT] LLM的擅长与不擅长：深入剖析大语言模型的能力边界

· 25 个值得关注的检索增强生成 (RAG) 模型和框架

· 2024年大语言模型的微调

阅读排行：
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码，我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· 白话解读 Dapr 1.15：你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示

历史上的今天：
2023-01-18 刘易斯拐点 - 劳动力由过剩到短缺转折
2016-01-18 nginx 反向代理（Reverse Proxy）与耗时记录
2011-01-18 LoadRunner测试结果中的吞吐量相关知识

蝈蝈俊的技术心得

导航

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论