2022 年 4月 7 日随笔档案 - 青竹之下

2022年4月7日

摘要： NLP分词 NLP分词NLPTokenizer会执行词性标注和命名实体识别，由结构化感知机序列标注框架支撑。默认模型训练自9970万字的大型综合语料库，是已知范围内全世界最大的中文分词语料库。语料库规模决定实际效果，面向生产环境的语料库应当在千万字量级。欢迎用户在自己的语料上训练新模型以适应新领域阅读全文

posted @ 2022-04-07 08:00 青竹之下阅读(55) 评论(0) 推荐(0) 编辑

huaobin

公告