通过EXCEL对相似词条进行分类、排序和去重
目录
序言
在一些统计工作中,会有这样的需求。先看一个示例:
江苏苹果项目
浙江苹果项目
黑龙江华为项目
辽宁苹果项目
黑龙江OPPO项目
甘肃小米项目
四川OPPO项目
四川华为项目
山西OPPO项目
山西苹果项目
浙江苹果项目
北京小米项目
天津华为项目
黑龙江华为项目
黑龙江小米项目
湖南苹果项目
湖南华为项目
湖南OPPO项目
湖北小米项目
湖北联想项目
山东REALME项目
山东小米项目
辽宁苹果项目
青海小米项目
新疆苹果项目
青海华为项目
现在要对这些示例项目进行快速分类,比如华为项目放一起,OPPO项目放一起,小米项目放一起...依此类推。并且要去掉重复的项目词条,如何实现?
倒序
对这种后缀相同的词条进行归类,一个可以想到的方法就是先对词条进行倒序,然后再排序。因为相似项目后缀相同,倒序后后缀依然相同。比如:
山东小米项目 翻转后 目项米小东山
青海小米项目 翻转后 目项米小海青
可以看到相似项目“小米项目”被翻转后均为“目项米小”,结果相同,这样就利用排序方法对相似项目进行归类。
那么,EXCEL里有字符串翻转函数吗?答案是:没有。但我们可以自己写一个。
参考:EXCEL自定义函数,https://blog.csdn.net/hongweigg/article/details/112184829
扩展排序
1、原始数据
2、在相邻列,插入倒序函数(假设倒序函数叫aaa)
3、生成倒序列
4、对倒序列进行扩展排序
可以看到原词条列已经按相似项目排序了:
去重
1、倒序列的使命已经完成,可以删除倒序列。
2、对原词条列进行去重
在“数据” TAB页,点“删除重复项”按钮,进行去重:
去重结束后,剩下的即是按相似类进行分类的项目:
参考
1、EXCEL自定义函数,https://blog.csdn.net/hongweigg/article/details/112184829
2、EXCEL去重示例: https://download.csdn.net/download/hongweigg/14022340