序列标注模型中的两种标记模式

SBME标记法: S 表示 表示单个字的词(single word) , B表示词的开始(begin)即首字,M表示词的中间(Middle)即词的中间字,E表示词的结尾(end),即尾字
一般在用数字这样表示:
# -1, unknown
    # 0-> 'S'
    # 1-> 'B'
    # 2-> 'M'
    # 3-> 'E'

 

样例:

   我爱使用小米手机玩王者荣耀   -> 我<S>爱<S>使<B>用<E>小<B>米<M>手<M>机<E>玩<S>王<B>者<M>荣<M>耀<E>

CS标记法:C 表示 当前的字char和后面字char是连续的,它们共同表示一个词,S 表示 当前字char和后面字char是两个不同的词 。
一般用数字这样表示:
  #-1,unkonwn
  # 0  ,  -> 'C'
  #  1 ,  -> 'S'

样例:

  我爱使用小米手机玩王者荣耀  -> 我<S>爱<S>使<C>用<S>小<C>米<C>手<C>机<S>玩<S>王<C>者<C>荣<C>耀<S> 

 

posted @   龚细军  阅读(1357)  评论(0编辑  收藏  举报
编辑推荐:
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 字符编码:从基础到乱码解决
历史上的今天:
2016-11-29 PIL中的Image和numpy中的数组array相互转换
点击右上角即可分享
微信分享提示