摘要: 1、文本预处理技术 分词:前向/后向最大匹配(max_len=5~10)有一个词典,基于匹配规则的方法,尽量匹配更多的字符。缺点:局部最优,歧义。考虑语义HMM,CRF...... 拼写纠错:编辑距离(一次insert\delete\replace),先生成编辑距离为1、2的字符串再过滤,返回最可能 阅读全文
posted @ 2020-05-23 15:48 喵改 阅读(338) 评论(1) 推荐(0) 编辑