NLP - 纠错理论知识

假设有这么一个场景，医生开处方的时候，可能写错药品和疾病名称，需要程序自动化纠错
例如:曲米新乳膏和二甲双瓜和双黄连
曲米新乳膏 ==> 曲咪新乳膏
二甲双瓜 ==> 二甲双胍

怎么做呢？
直觉告诉我们，应该有一个数据源，包含所有的药品疾病名称。
1、数据抓取
寻医问药 http://www.xywy.com/
丁香园 http://www.dxy.cn/
好大夫 http://www.haodf.com/yaopin/

scrapy框架 https://scrapy.org/ 看看demo，开始工作吧！

2、单词匹配
药品数据爬取下来后，有药品疾病的词典了。
那么怎么从一段文字中识别出哪些是药品名称呢？假设文本都是正确的，药品名称也是正确的。

涉及知识:
前缀树匹配
https://en.wikipedia.org/wiki/Trie
http://baike.baidu.com/link?url=9tTTwNRyFnYW4EiTfVMrT0hkX7O8TKc0HCrStmTkWfCsV3HEtFK0BA0tWov4ny206MUIvPnzwPpdxqVFgZlo4_

以python语言举例吧，PyTrie
   https://pypi.python.org/pypi/PyTrie 看看demo https://wiki.python.org/moin/CheeseShopTutorial
e.g. sentence = “我有双黄连和曲米新乳膏"
遍历所有包含最后1个字的字串
       我有双黄连和曲米新乳膏
     有双黄连和曲米新乳膏
       双黄连和曲米新乳膏
        ……
用爬取的药品名称字典生成SortedStringTrie，对每个子串用最长前缀匹配(method:longest_prefix)，
可以得到双黄连、曲米新乳膏这两个药品名称

3、纠错版本1.0
好吧，做了好多前期准备工作，可以开始尝试纠错了。先看看错误的例子:
   e.g. sentence = “我有双黄联和曲米新乳膏"
肉眼看过去双黄联 ==> 双黄连机器如何做呢？

涉及知识:
      编辑距离(Levenshtein距离) http://baike.baidu.com/link?url=BlzWCygnY5DdHj453HLQOhVYWnFfQO96hbHgqPTpWPo4x3_n4J6n2g5MVfYPVP7fWzf2u4doEspxkgWJSeJWvkwbMFV1FElBoqlSbbCG06ZLVlZeqoYkX6ucEwkcwTfQ

编辑距离就是求两个字符串的相似性
天安门和天天门 distance=1
天安门和天安    distance=1
   天安门和天安门 distance＝0

有了编辑距离，借助最长前缀匹配，设定距离阀值，例如4个字，允许1个字不一样，6个字允许两个字不一样。
用前缀匹配，找到双黄连，对应的词是双黄联，好吧，编辑距离ok，替换吧
  双黄连 ==> 双黄连
   恭喜你，纠错成功，关上电脑，可以交差了。

测试报bug了，怎么可能！！！
e.g. 小儿柏步止咳
纠错小儿柏步止咳 ==> 小儿清热止咳
  小儿清热止咳和小儿百部止咳都是药品名称，按照规则，字典树找到第一个小儿清热止咳，符合编辑距离<=2。

看来不能光按照字型去纠错，汉字的输入错误大部分来自同音字。
找个汉字转拼音的工具
pypinyin     https://pypi.python.org/pypi/pypinyin
加上拼音的编辑距离吧，全拼和首字母的，嗯嗯双重保险，例如必须首字母相同。
   小儿清热止咳首字母 xeqrzk
   小儿百部止咳首字母 xebbzk
   小儿柏步止咳首字母 xebbzk
纠错小儿柏步止咳 ==> 小儿百部止咳

测试还是有作用的，虽然报bug让我很不爽
1.0版本勉强可以上线使用了，精度门槛设置会比较高，召回相对低。
e.g. 青春都飞扬吧
   青春都 ==> 青春痘
4、纠错版本2.0
只看相似距离，是很难去判断纠正后的句子的合理性，因为替换规则只是针对单个单词，丢掉了句子的剩余单词信息。比如，句子1:青春都飞扬吧句子2:青春逗很多。句子1应该不去纠错，而句子2应该纠错。
涉及知识：
语言模型 https://en.wikipedia.org/wiki/Language_model 本质是用统计学意义判断句子构成的合理性
中文分词句子分词的多少作为判断句子合理性的一个参考因子
ngram http://blog.csdn.net/baimafujinji/article/details/51281816
语料库从很大的文本语录中切分出unigram bigram. 这个可以从爬取药品的网站上去爬取用户咨询的问题，这些问题里面包含的药品疾病比较多，适合用作医疗领域的ngram。

ngram切分用nltk(很有名的nlp python库, method:ngrams) http://www.nltk.org/

假设提取出来了unigram,bigram,那么可以试试语言模型了

加入语言模型，去计算替换后的句子正确概率，找到替换后句子正确概率最大的

5、优化方向
精度和召回总是一对矛盾
概率提升的阀值，可以控制纠错的精度，但是降低了召回
如何调整阀值，是不断试错过程。

概率是基于统计学意义的，所以badcase的出现不可避免。可以通过人工的数据介入，去干预单词替换
相近字加入，使得替换备选集合多一些，提升召回率

想要同时提升精度和召回，就需要分析badcase，设定粒度更小的精度阀值，优化是个长时间的工作。
6、总结
英文纠错(good demo:http://norvig.com/spell-correct.html)很多是字母拼写错误，中文纠错更多的是相近字，拼音等带来的字词错误。
纠错步骤：
1、正确词词典
2、从输入句子中找到替换候选词集合
3、语言模型判断句子合理性
4、选出替换后最合理的句子

精度阀值的控制需要不断尝试，词典单词很多，且面对的是非专业领域词汇，则同样阀值前提下，纠错的精度应该会有所下降。针对特点领域的纠错是可行的，纠错的方法另一个副产品是找出相近意思的词，例如头疼=>头痛

原文：https://blog.csdn.net/jccg3030/article/details/54909290

posted @ 2018-10-29 23:11 nike_ha 阅读(2300) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

nike_ha

NLP - 纠错理论知识

公告