会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
月沫
离开时想的太简单,挽回时说什么都太晚
博客园
首页
新随笔
联系
订阅
管理
2020年5月21日
#信息检索期末预习系列# 第三章 词项词典和倒排记录表
摘要: 如何建立词项词典 文档解析 识别不同文档格式/识别文档语言/识别文档编码方式/一个文档或其附件中包含多种语言或格式 词条化 定义:将给定的自负系列拆分为一系列子序列的过程,其中每一个子序列称之为一个“词条”Token 词条化可能会遇到的问题:连字符/空格、连字符空格相互影响、英文句号的考虑、数字的考
阅读全文
posted @ 2020-05-21 16:01 月沫
阅读(233)
评论(0)
推荐(0)
编辑
公告