单词 统计续
要求:
第1步:输出单个文件中的前 N 个最常出现的英语单词。
功能1:输出文件中所有不重复的单词,按照出现次数由多到少排列,出现次数同样多的,以字典序排列。
功能2: 指定文件目录,对目录下每一个文件执行统计的操作。
功能3:指定文件目录,是会递归遍历目录下的所有子目录的文件进行统计单词的功能。
功能4:输出出现次数最多的前 n 个单词,
代码:
import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException; import java.text.DecimalFormat; import java.util.Map; import java.util.Scanner; import java.util.TreeMap; class zimu{ char zm; double ci; String pl; zimu() { zm=0; ci=0; pl=null; } } class dc{ String name; int num; dc() { name=null; num=-1; } } public class Main { public static void findword(String text) throws IOException{ @SuppressWarnings("resource") Scanner scan=new Scanner(System.in); int i=0; String[] array = {".",",","?","!"}; for (int i1 = 0; i1 < array.length; i1++) { text = text.replace(array[i1]," "); } String[] textArray = text.split(" "); Map<String, Integer> map = new TreeMap<String, Integer>(); for (int i1 = 0; i1 < textArray.length; i1++) { String key = textArray[i1]; //转为小写 String key_l = key.toLowerCase(); if(!"".equals(key_l)){ Integer num = map.get(key_l); if(num == null || num == 0){ map.put(key_l, 1); } else if(num > 0){ map.put(key_l, num+1); } } } for(@SuppressWarnings("unused") String e:map.keySet()){ // System.out.println("单词:"+e+" 次数:"+map.get(e)); i++; } dc [] z=new dc[i]; for(int m=0;m<=i-1;m++) { z[m]=new dc(); } int j=0; for(String e:map.keySet()) { // if(z[j]!=null) { // z[j].name=e; // z[j].num=map.get(e); // } if(z[j]!=null&&!nousejudge(e,"nouse.txt")) { z[j].name=e; z[j].num=map.get(e); } j++; } dc t=new dc(); for(int m=0;m<=i-1;m++) { for(int n=m;n<=i-1;n++) { if(z[m]!=null&&(z[m].num<z[n].num)) { t=z[m]; z[m]=z[n]; z[n]=t; } } } for(int p=0;p<=i-1;p++) { System.out.println("单词:"+z[p].name+" 次数:"+z[p].num); } System.out.println("请输入想要输出前几位次数较多的单词:"); int b=scan.nextInt(); for(int m=0;m<=b-1;m++) { if(z[m]!=null) { System.out.println("单词:"+z[m].name+" 次数:"+z[m].num); } } } public static void judgezimu(String str1) { char zm[]=new char[26]; int ci[]=new int[26]; DecimalFormat df = new DecimalFormat("0.00"); double sum=0; int i; int flag=0; String str=str1.toLowerCase(); int count; char chs[]=str.toCharArray(); for(char ch='a';ch<='z';ch++) { count=0;//计数器 for(i=0;i<chs.length;i++) { if(ch==chs[i]) count++; } if(count!=0) { zm[flag]=ch; ci[flag]=count; sum=sum+count; flag++; } } zimu z[]=new zimu[flag]; for(int m=0;m<flag;m++) { z[m]=new zimu(); } for(i=0;i<flag;i++) { z[i].zm=zm[i]; z[i].ci=ci[i]; z[i].pl=df.format(ci[i]/sum); } zimu t=new zimu(); for(i=0;i<flag;i++) { for(int j=0;j<flag;j++) { if(z[i].ci>z[j].ci) { t=z[i]; z[i]=z[j]; z[j]=t; } } } for(i=0;i<flag;i++) { System.out.println(z[i].zm+":次数:"+z[i].ci+"频率:"+z[i].pl); } } public static String readtxt(String txt) throws IOException { File file = new File(txt);//定义一个file对象,用来初始化FileReader FileReader reader = null; try { reader = new FileReader(file); } catch (FileNotFoundException e) { // TODO Auto-generated catch block e.printStackTrace(); }//定义一个fileReader对象,用来初始化BufferedReader BufferedReader bReader = new BufferedReader(reader);//new一个BufferedReader对象,将文件内容读取到缓存 StringBuilder sb = new StringBuilder();//定义一个字符串缓存,将字符串存放缓存中 String s = ""; while ((s =bReader.readLine()) != null) {//逐行读取文件内容,不读取换行符和末尾的空格 sb.append(s);//将读取的字符串添加换行符后累加p存放在缓存中 } bReader.close(); String str = sb.toString(); return str; } public static boolean nousejudge(String danci,String txt) throws IOException { String str=readtxt(txt); String[] nouse = str.split(" "); for(int i=0;i<nouse.length;i++) { if(danci.equals(nouse[i])) { return true;//如果是无用词返回true } } return false; } public static void main(String[] args) throws IOException { // TODO Auto-generated method stub //String str = readtxt("zimu.txt"); //judgezimu(str); String str1 = readtxt("danci.txt"); findword(str1); } }