一个算法问题
有网友在我《在Excel中使用VBA来筛选数据》(http://www.cnblogs.com/maweifeng/archive/2005/06/13/71504.html)一文中提出了如下问题,大概考虑了一下,解答如下,欢迎指正。
问题描述:
有一组数据,数据量很大(大于10000,假设为N),对这N组数据(每组有M个数值且已排好序),如果N组中某几组数据中有h个数字相同(例如7),就认为这几组数据都是相似的,然后把它们一起存放在一个指定的位置。
例如以下数据:
(行号) (数据)
0001 2 4 6 10 12 14 16 18 20 22 24 26
0002 4 10 12 16 20 22 26
…….
0014 2 4 12 14 18 22 24
就认为0001,0002,0014行数据是相似的,把它们存放在指定的位置。
0003 1 5 7 12 14 22 28 39 50 55 60
0007 5 7 14 22 39 55 60
0013 1 7 12 14 28 39 55
...
0100 5 7 12 22 28 39 50 60
这几组数据也是类似的,把它们也存在上一组类似数据的后面。 其他的以此类推。
我自己给出的算法见http://www.cnblogs.com/maweifeng/articles/173744.html,欢迎讨论,批评指正。