摘要: 字符串的相似性比较应用场合很多,像拼写纠错、文本去重、上下文相似性等。评价字符串相似度最常见的办法就是:把一个字符串通过插入、删除或替换这样的编辑操作,变成另外一个字符串,所需要的最少编辑次数,这种就是编辑距离(edit distance)度量方法,也称为Levens... 阅读全文
posted @ 2018-02-01 19:26 未雨愁眸 阅读(1113) 评论(0) 推荐(0) 编辑
摘要: 功能:判断unicode是否是汉字,数字,英文,或者是否是(汉字,数字和英文字符之外的)其他字符。全角、半角符号相互转换。全角、半角?全角--指一个字符占用两个标准字符位置。汉字字符和规定了全角的英文字符及国标GB2312-80中的图形符号和特殊字符都是全角字符。一般... 阅读全文
posted @ 2018-02-01 19:18 未雨愁眸 阅读(2142) 评论(0) 推荐(0) 编辑