LLM(Large Language Models)稀缺的数据主要包括以下几类,这些也是微调(Fine-tuning)专业领域模型或RAG(Retrieval-Augmented Generation 检索增强生成)的机遇:
公司内部流程和政策
这些资料通常作为内部文档存在,涉及特定组织的运作机制。
图:公司内部流程和政策,独一无二、专用、私有
主观感受和个人体验:
包括个人的经历、记忆,以及情感和感觉,这些都是高度个性化的信息,这类信息通常是主观的且独一无二的。
图:每个人的经历都是独一无二的
实时动态信息
如股市动态、新闻事件的最新发展、天气预报等。这些实时动态信息变化迅速,LLM来不及捕捉。
图:一些人正在看实时大屏幕
专业或非公开领域信息
涉及专业领域的深度知识,例如某些高级科学研究、专业医疗知识、法律案例分析等,这些领域的信息可能不公开或仅在专业圈内流通,通常是独家的。
图:曼哈顿工程原子弹的研究这些肯定是专业和非公开的
个人隐私或保密信息
涉及个人隐私、商业秘密或国家安全等敏感信息,这些信息通常受到法律保护,在LLM的训练数据中是被严格禁止的。
图:同样的长袍和面具,保护个人隐私
极端情况或罕见事件
极端罕见的事件或特殊情况,由于其发生频率低,可能在训练数据中的代表性不足。
图:探索深海生物,少见,相关数据很少
总结
上面尽可能全面地涵盖了LLM在数据获取方面可能遇到的限制。然而,技术的不断进步和数据获取方法的改进可能会逐步解决其中的一些限制。