编程作业

这个作业属于哪个课程 软件工程
这个作业要求在哪里 作业要求
这个作业的目标 编程作业
学号 20188540

1、作业描述和目录

1、统计文件的字符数(对应输出第一行):

只需要统计Ascii码,汉字不需考虑
空格,水平制表符,换行符,均算字符

2、统计文件的单词总数(对应输出第二行),单词:至少以4个英文字母开头,跟上字母数字符号,单词以分隔符分割,不区分大小写。

英文字母: A-Z,a-z
字母数字符号:A-Z, a-z,0-9
分割符:空格,非字母数字符号
例:file123是一个单词, 123file不是一个单词。file,File和FILE是同一个单词

3、统计文件的有效行数(对应输出第三行):任何包含非空白字符的行,都需要统计。

4、统计文件中各单词的出现次数(对应输出接下来10行),最终只输出频率最高的10个。

频率相同的单词,优先输出字典序靠前的单词。

例如,windows95,windows98和windows2000同时出现时,则先输出windows2000

输出的单词统一为小写格式

然后将统计结果输出到output.txt,输出的格式如下;其中word1和word2 对应具体的单词,number为统计出的个数;换行使用'\n',编码统一使用UTF-8。

项目链接

Gitee-Java

2、psp表

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划
• Estimate • 估计这个任务需要多少时间 180 240
Development 开发
• Analysis • 需求分析 (包括学习新技术) 120 180
• Design Spec • 生成设计文档 15 20
• Design Review • 设计复审 15 10
• Coding Standard • 代码规范 (为目前的开发制定合适的规范) 25 45
• Design • 具体设计 45 30
• Coding • 具体编码 180 200
• Code Review • 代码复审 20 20
• Test • 测试(自我测试,修改代码,提交修改) 15 25
Reporting 报告
• Test Repor • 测试报告 15 26
• Size Measurement • 计算工作量 300 350
• Postmortem & Process Improvement Plan • 事后总结, 并提出过程改进计划 30 30
合计 740 936

3、解题思路

(1),读取文件,利用Java I/O读入文件中的内容 bufferedreader类将数据放到缓冲区内进行操作,
(2)bufferedreader中的readline()方法是按照逐行读取同时进行累加最后输出行数
(3)用split()方法进行单词切割存放在数组中,并获取数组长度,将其中所有的单词利用toLowerCase()方法全部变成小写,判断是否视其为单词,如果视为不是单词,获取的数组长度减一,循环下去知道所有的单词都满足要求,然后输出个数
(4)取(3)中的数组遍历,判断是否为重复,统计单词频率,循环下去,最后利用filewriter写出到output.txt

4、代码规范

codestyle

5、计算机模块接口的设计与实现

int length = item.length;// 得到item的长度

		FileInputStream fis = null;

		try {
			fis = new FileInputStream(file_path);

			while ((bytes = fis.read(item, 0, length)) != -1) {
				countChar += bytes;
			}

定义 countChar来存储字节数,用缓冲区中的数据fileinputstream通过while循环来累加字节数,最后输出字节数

try {
			fis = new FileInputStream(file_path);
			isr = new InputStreamReader(fis);
			br = new BufferedReader(isr);

			while (br.readLine() != null) {
				countLine++;
			}

bufferedreader中的readline()方法是按照逐行读取同时进行累加最后输出行数

temp = temp.toLowerCase();

			String[] total = temp.split(" ");// 将temp中的单词用“ ”分开
			countWords = total.length;
			
			for (int i = 0; i < total.length; i++) {
				String s = total[i].toString();
				if (s.length() < 4) {// 如果字符小于4个
					countWords--;
				} else {
					for (int j = 0; j < 4; j++) {// 如果字符数大于4但是前面为数字
						char c = s.charAt(j);
						if (!(c >= 'a' && c <= 'z')) {
							countWords--;
							break;
						}
					}
				}
			}

用split()方法进行单词切割存放在数组中,并获取数组长度,将其中所有的单词利用toLowerCase()方法全部变成小写,判断是否视其为单词,如果视为不是单词,获取的数组长度减一,循环下去知道所有的单词都满足要求,然后输出个数

fis = new FileInputStream(file_path);
			isr = new InputStreamReader(fis);// 文件字节输入流
			br = new BufferedReader(isr);// 文件缓存输入流

			while (br.read() != -1) {
				temp = br.readLine();
				sb.append(temp);// 将读出来的数据保存在temp中
				sb.append(" ");// 添加一个空格
			}
			Map<String, Integer> map = new HashMap<String, Integer>();// 运用哈希排序
			temp = sb.toString();

			temp = temp.replaceAll("[^A-Za-z0-9]", " ");

			temp = temp.toLowerCase();

			StringTokenizer st = new StringTokenizer(temp, " ");// 分割字符串

			while (st.hasMoreTokens()) {
				String letter = st.nextToken();// 把分割好的字符串保存到letter中
				int count;
				if (map.get(letter) == null) {
					count = 1;// 表示没有分割
				} else {
					count = map.get(letter).intValue() + 1;

				}
				map.put(letter, count);
			}
			Set<MySetUtil> set = new TreeSet<MySetUtil>();
			for (String key : map.keySet()) {
				set.add(new MySetUtil(key, map.get(key)));
			}
			int count = 1;
			for (Iterator<MySetUtil> it = set.iterator(); it.hasNext();) {
				MySetUtil msu = it.next();
				boolean isWords = true;
				if (msu.getKey().length() > 4) {
					String s = msu.getKey();
					for (int i = 0; i < 4; i++) {
						char c = s.charAt(i);
						if (!(c >= 'a' && c <= 'z'))// 只要是字母都已经换成小写了
						{
							isWords = false;
							break;
						}
						if (isWords == true) {
							result += msu.getKey() + ": " + msu.getCount() + "\n";
							if (count == 10) {
								break;
							}
							count++;
						}
					}

				}
			}

取(3)中的数组遍历,判断是否为重复,统计单词频率,循环下去,最后利用filewriter写出到output.txt

6、单元测试和性能分析

7、异常处理

1、输出时数据重复

2、使用输入输出流、文件流时,必须try catch处理异常,否则编译不通过。

8、心路历程与收获

在这次的项目中,我复习了如何用gitee管理代码,也学到了不少新知识,制定了自己的Java代码规范。我也接触到了PSP表格这种估计开发时间的方法,在项目开发的过程中开始有意识地估计和记录各项工作的时间。我还学会了编写构建之法中提到的单元测试,我想单元测试对于复杂的项目是很重要的。同时我还复习巩固了一些Java的知识,也锻炼了思考的能力。

这次的作业接触到的新东西比较多,感觉有点难,有需要学习的新知识,会遇到一些问题,文档的写作也和较以往的作业比不同,希望经过这一次的练习,我能在以后的作业中做得更快更好。

posted @ 2021-04-02 12:51  zzwwll  阅读(237)  评论(0编辑  收藏  举报