【NLP汉语自然语言处理与实践】分词_笔记

一、两种分词标准：

1. 粗粒度。

2. 细粒度。

二、歧义

1.分类：

2. 解决方法（分词算法）

机械分词系统
- 基于最大匹配方法MM（The Maximum Matching Method）
  - 设词典中的最长词条为L，每次先取L个词尝试匹配，若失败，就去掉最后一个字，取前L-1个词尝试匹配，以此类推
- 双向匹配法
  - MM的改进算法，分为正向最佳匹配法和逆向最佳匹配法
  - 两个方向得到的结果必然不同
  - 缺陷：只能正向或逆向得找出最长的词，而不能找出所有的候选词条
- 双向扫描法
  - 以上的改进算法，能更快速的检测出歧义产生的位置
- 整体缺点：没有考虑词汇上下文相关性，分词准确度不高
机械分词系统揭示了一个语言规律：
- 一个词汇的出现与其上下文环境中出现的词汇序列存在着紧密的联系
- 上下文相关性：
  - 文本中第n个词的出现与其前后n-m和n+m个词有高度相关性，这个范围[-m,m]称为窗口范围

三、未登录词识别（Named Entity Recognition, NER)

posted @ 2018-10-05 16:56 A_Present 阅读(900) 评论(0) 收藏举报

刷新页面返回顶部

A_Present