【算法】相似度计算之汉明距离
汉明距离是以理查德·卫斯里·汉明的名字命名的。在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。例如:
1011101 与 1001001 之间的汉明距离是 2。
2143896 与 2233796 之间的汉明距离是 3。
"toned" 与 "roses" 之间的汉明距离是 3。
例如:(00)与(01)的距离是1,(110)和(101)的距离是2。在一个码组集合中,任意两个编码之间汉明距离的最小值称为这个码组的最小汉明距离。最小汉明距离越大,码组越具有抗干扰能力。
计算汉明距离的算法
思路:
01.将两个给定的数进行 异或(^)运算后保存在变量a,汉明距离就是a的二进制中1的个数
02.当a不为0时,和0x01进行 按位与(&)运算,如果结果为1,则统计变量加一
03.将a右移一位,重复第02步
function hamDist($s1, $s2){ $len1 = strlen($s1); $len2 = strlen($s2); if($len1 != $len2){ return false; } $dist = 0; for($i = 0; $i < $len1; $i++){ if($s1[$i] != $s2[$i]){ $dist++; } } return $dist; } $s1 = "abcde"; $s2 = "acdeb"; echo hamDist($s1, $s2);// 输出4
/** * 计算编辑距离(Levenshtein Distance) * * @param string $s1 * @param string $s2 */ function levDist($s1, $s2){ $len1 = strlen($s1); $len2 = strlen($s2); if($len1 == 0){ return $len2; } if($len2 == 0){ return $len1; } for($i = 0; $i <= $len1; $i++){ $matrix[$i][0] = 0; } for($j = 0; $j <= $len2; $j++){ $matrix[0][$j] = 0; } for($i = 1; $i <= $len1; $i++){ $ch1 = $s1[$i - 1]; for($j = 1; $j <= $len2; $j++){ $ch2 = $s2[$j - 1]; $temp = $ch1 == $ch2 ? 0 : 1; $arr = array( $matrix[$i - 1][$j] + 1, $matrix[$i][$j - 1] + 1, $matrix[$i - 1][$j - 1] + $temp ); $matrix[$i][$j] = min($arr); } } return $matrix[$len1][$len2]; }
PHP的相似度计算函数:levenshtein 也用到该算法的实现
levenshtein(string1,string2,insert,replace,delete)
参数
- string1 必需。要对比的第一个字符串。
- string2 必需。要对比的第二个字符串。
- insert 可选。插入一个字符的代价。默认是 1。
- replace 可选。替换一个字符的代价。默认是 1。
- delete 可选。删除一个字符的代价。默认是 1。