Embedding 模型一览 选择 及使用
摘要:利用 MTEB 基准 要全面评估编码器的功能,最好的参考是大规模文本嵌入基准(MTEB)。这个基准可以让我们根据向量的维度、检索的平均性能和模型的大小来对比不同的编码器。不过,我们也不能完全相信这个基准的结果,因为它并不是万能的,而且模型的训练数据的细节可能没有公开。 MTEB 不仅给我们展示了 O
阅读全文
大语言模型一览
摘要:Model作者Size类型开源? LLaMa Meta AI 7B-65B Decoder open OPT Meta AI 125M-175B Decoder open T5 Google 220M-11B Encoder-Decoder open mT5 Google 235M-13B Enco
阅读全文
信息抽取
摘要:信息抽取,information extraction,简称IE,从无结构或者半结构的文本中抽取出结构化信息的任务 信息抽取方法分类 1根据抽取内容是否在原文中,分为 抽取式 和 生成式; 抽取式:空腹血糖控制在 7mmol/L > 空腹:7mmol/L 生成式:肿瘤为隆起溃疡性,位于胃窦处 > B
阅读全文
词云 绘制总结
摘要:词云是根据词频生成的,字体越大代表词频越高; 词云只是词频的可视化,意义跟词频一样; python 使用 wordcloud 模块 生成词云,主要分两步: 1. 创建 WordCloud 对象 2. 直接根据文本 或者 根据词频 生成词云 创建 wc 对象 wordcloud 参数介绍 font_p
阅读全文
朴素贝叶斯
摘要:朴素贝叶斯是一个概率模型,在数学上能用概率解释的模型一般被认为是好模型。 朴素贝叶斯常用于文本分类。 先介绍几个基础概念。 1. 概率 设x为符合某种特征的样本,H为某个假设,比如假设x属于类别c,那分类就是求这个假设发生的概率,即P(H|x)的大小。 P(H|X)是后验概率,或者说在条件X下,H的
阅读全文