2024年7月20日
摘要: How Do Large Language Models Acquire Factual Knowledge During Pretraining? 通常认为,LLM在预训练中学习知识。但是LLM对长尾知识的习得很差。有观点认为,Attention的qkv结构是对知识进行抽取(q*k计算attn_s 阅读全文
posted @ 2024-07-20 20:10 风生水起 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 预处理知识库文件 阅读全文
posted @ 2024-07-20 09:58 风生水起 阅读(30) 评论(0) 推荐(0) 编辑