现代软件工程作业 – 计算最长英语单词链

结对编程 – 计算最长英语单词链

《构建之法》练习题

大家经常玩成语接龙游戏，我们试一试英语的接龙吧：一个文本文件中有N 个不同的英语单词，我们能否写一个程序，快速找出最长的能首尾相连的英语单词链，每个单词最多只能用一次。最长的定义是：最多单词数量，和单词中字母的数量无关。

例如，文件里有：

Apple

Zoo

Elephant

Under

Fox

Dog

Moon

Leaf

Tree

Pseudopseudohypoparathyroidism

最长的相连英语单词串为： apple - elephant – tree, 输出到文件里面，是这样的：

Apple

Elephant

Tree

要求程序（WordList.exe）能处理命令行参数，知道什么是输入文件，输出文件应该放在哪里。这样，当助教拿到学生的源程序后，就能编译，并运行一系列的测试。

Wordlist.exe /i input1.txt /o output1.txt

Wordlist.exe /i input2.txt /o output2.txt

…

既然是测试，就会有很多边角情况，例如，文件不存在，你的程序会崩溃么，还是能优雅地退出并给用户提示信息？如果文件没有任何单词、只有一个单词、没有可以首尾相连的单词，程序应该如何输出？

程序的正确性验证完毕后，就可以用一些命令行计时工具来测试程序的效率。当然，同学们也可以参考《构建之法》的介绍，自己先测试并改进程序的效率，最好是先写一个朴素的算法，看看用时如何，再分析效率，改进，分析...

如果输入文件有一万个单词，你的程序能多快输出结果？课程助教会在同一个电脑上用一个大文件来测试所有同学的作业，请做好准备。

补充题1：请让你的程序处理不同数量的单词文件，纪录所花费的时间（建议时间单位：毫秒）。在二维坐标系上画出程序的效率（x 轴：输入文件字符数， y 轴：程序时间）。

字符数为： 10， 100， 500， 1000， 1500， 2000， 3000， 4000， 10000

补充题2：这个问题的核心算法是什么？它等价于图论的什么问题，你的解法的效率是多少？算法的效率和二维坐标上的曲线吻合么？考虑到这个题目的各种特殊性，还可以继续优化么？

补充题3：很多科班出身的同学在学校里学习的是 Java/C/C++/C# 之类的语言，这个练习的需求就是处理一些字符串，能否用一些处理文字比较方便的语言（Perl， Python, JavaScript）来做同一个题目呢？在处理大文件的时候，这两种语言的效率有差别么？

补充题4：能否做一个网页版的程序，用户可以在输入窗口敲入各种单词，输出窗口就能实时显示最长的单词链？

补充题5：上面我们提到这个题目中 “最长” 的定义是单词数量最多，如果我们改一下，最长 = 单词串中所含字母最多，那么输入例子中的最长输出就是：

　　Pseudopseudohypoparathyroidism

　　Moon

如果我们要求程序能处理这两种情况（用命令行参数 /c 表示字母最多，用命令行参数 /w 或没有参数表示单词数量最多），你的程序如何做合理的模块化，让程序能有较好的可重用化，可读性？

补充题6：上面提到的效能工具是Windows 平台的，学生能否在别的平台运行效能测试工具，并介绍其用法？

补充题7：能否处理中文的词组，就像成语接龙那样，成语接龙有两种要求，a) 接龙的两个词首尾的字必须是同一个字； b) 首尾的字拼音和声调相同即可。如何加上参数让程序能处理中文成语接龙的情况？如果我们是让另外一些同学编写中文成员接龙的模块，那我们如何让这个模块被主程序调用？

从上面的各个小题目锻炼过来，我们可以看出一个从实践出发的构建软件的步骤：

　　1. make it work 先把最主要的情况处理对，程序能跑起来

　　2. make it right 再把各种情况处理好

　　3. make it fast 优化速度

　　4. make it extensible 让程序可扩展，既然能处理这个问题，我们让它处理一些扩展问题如何？

　　5. make it maintainable 让程序可读，可维护。

这个次序也综合了各路专家对此的看法，次序不对，就会掉进过早优化和其他一些坑里面。

posted @ 2017-07-05 09:52 SoftwareTeacher 阅读(2381) 评论(2) 收藏举报

刷新页面返回顶部

SoftwareTeacher

现代软件工程教学博客邹欣

现代软件工程作业 – 计算最长英语单词链

公告

SoftwareTeacher

现代软件工程 教学博客 邹欣

现代软件工程作业 – 计算最长英语单词链

公告

现代软件工程教学博客邹欣