HuggingFace

Pipeline  

pipeline 模块把所有东西都封装死了,只需要传进去原始输入,就能得到输出. 

例:遮掩词填空,可以看出 pipeline function 给出了 5 个备选答案   

  

 

Tokenizer  

tokenizer 是分词器,对输入的单词进行预处理,可能会将单词拆开(例如,dogs 拆成 dog + s)  

一般来说,tokenizer 的处理结果和后面的大模型应当是配套的(显然,不同大模型有不同的拆分方案)  

一般来说,会有 input_ids 和 attention_mask 这两项,前面的 input_ids 就是拆分后词在语料库中的编号,然后后面 attention_mask 为 0 代表着没东西(是被 padding 的位置) 

  

Model   

输入的句子经过 tokenizer 的预处理后就可以喂给 model(真正的大模型) 了. 

model 的输出是未经过标准化/激活函数的向量,所以说想要得到最后的结果还需要自己写一下.   

例如,可以针对单词分类这个任务写一个 softmax : 

  

 

posted @   guangheli  阅读(135)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
点击右上角即可分享
微信分享提示