大数据排重

注意用来排重的那个集合放到Set中, 可以是HashSet,或者其他Set(推荐使用HashSet),因为Set的contains效率更高,比list高很多

----------------------------------------------------------------------------------------------------------------------------------------------------------------------

我们有1000万条数据,保存在一个txt中,每一行一行的读,然后如果有重复的数据则忽略,cardArr[0])里保存的是流水号,我们最终的数据 流水号不能相同

Set<String> serialNoList = new HashSet<String>();//保存流水号,用于去重- - - - - - - - - - 这里是个set,因为set的contains的效率更高

while ((line = reader.readLine()) != null) {

  

  String[] cardArr = line.split("\\|");

  //如果文件中的流水号重复,则去重
  if(serialNoList.contains(cardArr[0])){
    continue;
  }
  serialNoList.add(cardArr[0]);

}

http://blog.tommyyang.cn/2017/11/06/%E5%A4%A7%E6%95%B0%E6%8D%AEList%E5%8E%BB%E9%87%8D/

 

posted @ 2018-09-26 11:39  纯丿乱  阅读(551)  评论(0编辑  收藏  举报