摘要:
字符串的相似性比较应用场合很多,像拼写纠错、文本去重、上下文相似性等。评价字符串相似度最常见的办法就是:把一个字符串通过插入、删除或替换这样的编辑操作,变成另外一个字符串,所需要的最少编辑次数,这种就是编辑距离(edit distance)度量方法,也称为Levens... 阅读全文
摘要:
功能:判断unicode是否是汉字,数字,英文,或者是否是(汉字,数字和英文字符之外的)其他字符。全角、半角符号相互转换。全角、半角?全角--指一个字符占用两个标准字符位置。汉字字符和规定了全角的英文字符及国标GB2312-80中的图形符号和特殊字符都是全角字符。一般... 阅读全文