一个算法问题
有网友在我《在Excel中使用VBA来筛选数据》(http://www.cnblogs.com/maweifeng/archive/2005/06/13/71504.html)一文中提出了如下问题,大概考虑了一下,解答如下,欢迎指正。
问题描述:
有一组数据,数据量很大(大于10000,假设为N),对这N组数据(每组有M个数值且已排好序),如果N组中某几组数据中有h个数字相同(例如7),就认为这几组数据都是相似的,然后把它们一起存放在一个指定的位置。
例如以下数据:
(行号) (数据)
0001 2 4 6 10 12 14 16 18 20 22 24 26
0002 4 10 12 16 20 22 26
…….
0014 2 4 12 14 18 22 24
就认为0001,0002,0014行数据是相似的,把它们存放在指定的位置。
0003 1 5 7 12 14 22 28 39 50 55 60
0007 5 7 14 22 39 55 60
0013 1 7 12 14 28 39 55
…...
0100 5 7 12 22 28 39 50 60
这几组数据也是类似的,把它们也存在上一组类似数据的后面。 其他的以此类推。
实现算法:
for i = 1 to N
for j = i + 1 to N
m , n = 0
count = 0
比较 i 行和 j 行
While
if A[i][m] < A[j][n]
m++
else if A[i][m] == A[j][n]
count++
m++, n++
else
n++
if count > 7
break
标记 i 行和 j 行相似,做相应操作
大概算法很明了,无需过多说明,执行效率为 N2*M (1/2 * N2 * M)。自己再想不出什么更好的算法。有一个问题是:如果第1,3,4,5行类似,在i为3时,4,5行也会伴随扫描进来为类似,但实际上已经不需要,而3有另一组数据和7,8行类似,因此,需要标记这类现象。
如果已经标记的行再不需要参与计算,则将标记的行在循环时跳过即可,效率大概为:N(N-2)*M/2。
对于这个问题,因为各行需要两两比较,因此至少行之间的比较需要N*(N-1)/2次运算,但如果行之间比较的结果在其他行比较时可以用的上的话,应该还有优化的余地。
附带VBA代码:

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82
