// // // //

随笔分类 -  AI自然语言处理

 
Embedding 模型一览 选择 及使用
摘要:利用 MTEB 基准 要全面评估编码器的功能,最好的参考是大规模文本嵌入基准(MTEB)。这个基准可以让我们根据向量的维度、检索的平均性能和模型的大小来对比不同的编码器。不过,我们也不能完全相信这个基准的结果,因为它并不是万能的,而且模型的训练数据的细节可能没有公开。 MTEB 不仅给我们展示了 O 阅读全文
posted @ 2023-11-20 13:58 努力的孔子 阅读(1876) 评论(0) 推荐(0) 编辑
大语言模型一览
摘要:Model作者Size类型开源? LLaMa Meta AI 7B-65B Decoder open OPT Meta AI 125M-175B Decoder open T5 Google 220M-11B Encoder-Decoder open mT5 Google 235M-13B Enco 阅读全文
posted @ 2023-07-19 14:31 努力的孔子 阅读(167) 评论(0) 推荐(0) 编辑
信息抽取
摘要:信息抽取,information extraction,简称IE,从无结构或者半结构的文本中抽取出结构化信息的任务 信息抽取方法分类 1根据抽取内容是否在原文中,分为 抽取式 和 生成式; 抽取式:空腹血糖控制在 7mmol/L > 空腹:7mmol/L 生成式:肿瘤为隆起溃疡性,位于胃窦处 > B 阅读全文
posted @ 2022-10-31 21:11 努力的孔子 阅读(418) 评论(0) 推荐(0) 编辑
词云 绘制总结
摘要:词云是根据词频生成的,字体越大代表词频越高; 词云只是词频的可视化,意义跟词频一样; python 使用 wordcloud 模块 生成词云,主要分两步: 1. 创建 WordCloud 对象 2. 直接根据文本 或者 根据词频 生成词云 创建 wc 对象 wordcloud 参数介绍 font_p 阅读全文
posted @ 2021-07-24 14:29 努力的孔子 阅读(647) 评论(0) 推荐(0) 编辑
朴素贝叶斯
摘要:朴素贝叶斯是一个概率模型,在数学上能用概率解释的模型一般被认为是好模型。 朴素贝叶斯常用于文本分类。 先介绍几个基础概念。 1. 概率 设x为符合某种特征的样本,H为某个假设,比如假设x属于类别c,那分类就是求这个假设发生的概率,即P(H|x)的大小。 P(H|X)是后验概率,或者说在条件X下,H的 阅读全文
posted @ 2019-04-06 08:39 努力的孔子 阅读(583) 评论(0) 推荐(0) 编辑

 

点击右上角即可分享
微信分享提示