利用Scanner+Pattern类实现java文本批量扫描

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.Collection;
import java.util.Scanner;
import java.util.regex.Pattern;
/**
 * 文本批量扫描 列出文件中所有的单词
 * 正则表达式
 * @author xiaowei
 *
 */
public class StringScanner {
 public static void main(String[] args) throws IOException {
  InputStream pis=System.in ;
  Scanner sp=new Scanner(pis) ; //io扫描
  System.out.println("请输入要扫描的路径:");
  String path=sp.next() ;  //扫描文件路径
  File f=new File(path) ;
  File[]files=f.listFiles() ;//返回路径下的所有文件
  InputStream is=null ;
  Scanner s=null ;
  Pattern p =null ;
  Collection<String> col=new ArrayList<String>() ;
  for(File tfile:files){
   System.out.println(tfile.getName()+"的单词:");
   is=new FileInputStream(tfile) ;//输入
   s=new Scanner(is); //文本扫描器
   s.useDelimiter("(\\s|\\W|[\\u4e00-\\u9fa5]|\\d)+") ;//设置切分界限 使用文本扫描器一定要注意 。。文本扫描器以此为界限切分
      p=Pattern.compile("[a-zA-Z]+",Pattern.MULTILINE) ; //正则表达式编译对象 
      while(s.hasNext(p)) { //如果存在下一个匹配 那我们匹配下一个
       s.next(p) ;   //匹配下一个字符串
       col.add(s.match().group());//返回匹配结果的第0组正则式
      }
      System.out.println(col.toString());
      col.clear() ;//清空arraylist
      is.close() ;
  }

 }

}

posted @ 2012-07-13 23:31  programmer小卫  阅读(299)  评论(0编辑  收藏  举报