11 2024 档案
摘要:语言大模型是通过大规模数据集训练而来可以帮我们进行文本生成、内容总结,但对于一些小众知识、内部数据模型不一定知道怎么回答,这时候可能会胡言乱语。目前要想在特定领域小众知识或私密数据时模型能够表现出比较好的水平目前主要有两种方式可以实现:模型微调、外挂知识库也就是RAG模式,RAG模式之前我们有介绍过
阅读全文
摘要:上篇文章已经介绍了语料数据的预处理,对数据集中的音频数据分别做了重采样、静音切除、降噪以及在Fbank和MFCC中特征提取方式中选择了Fbank对音频数据进行特征提取的方法;在经过上面的处理后已经可以将提取出的音频数据Fbank丢到Transformer中进行训练,但还漏了一个比较重要的数据预处理,
阅读全文