BUAA-OO-第三单元总结

北航计算机学院面向对象第三单元总结

由于本单元三次作业非常相似，都是基于上一次的功能和指令进行迭代扩展，因此以下总结都以第三次作业为例。

一、利用JML规格生成数据并测试

本单元作业是契约式编程，不需要在架构设计上花太多心思，作业中容易出现Bug的情况是对官方给定的JML理解有误，以及设计的算法时间复杂度过高。因此本单元的自动测试基本是为了验证程序的功能正确性，而压力测试主要靠针对实现代码使用的算法手动构造数据，比如对并查集、最短路径的压力测试等。生成数据后的自动测试比较简单，与第二单元的多线程并行不同，本单元程序的运行结果是固定、可预测的，因此只需要找几个小伙伴对拍、逐行对比输出即可。（但要小心大家是不是同一个Bug

生成的数据分别对Message的相关操作、其余的操作进行测试，主要是因为Message的相关操作相对于其余的操作而言，结构和功能上都相对独立一些。

对Message的测试数据

# 首先初始化图以及表情列表
# add person
for i in range(30):
    instrlist += "ap"
        ……    
# add relation
for i in range(300):
    instrlist += "ar"
        ……
# 增加两个组
instrlist += "ag"
        ……
for i in range(25):
    # 25个人在组里，5个人不在组里以验证异常
    instrlist += "atg"
        ……
for i in range(15):
    # 初始15个表请
    instrlist += "sei "
        ……
# 对Message的相关指令进行随机性功能检测
for i in range(950):
    instr = random()
    if instr < 0.4 and len(msgId) != 0:
        instrlist += choice(["sm","sim"])
        ……
    elif instr < 0.8:
        cnt += 1
        if cnt == 5:
            # 每五个人增加一个msgId缺失，保证对异常抛出的检测
            msgId.append(randint(1001, 5000))
            cnt = 0
        type = randint(0, 1)
        instrlist += choice(['arem','am','anm','aem'])
        ……
    elif instr<0.9:
        instrlist += "qm"
        ……
    elif instr<0.95:
        instrlist += "qp "
        ……
    elif instr < 0.97:
        instrlist += "qrm "
        ……
    elif instr<0.98:
        instrlist+="dce "
        ……
    else:
        instrlist += "cn"
        ……

对其余操作的测试数据

除开Message以外指令关联性较强，因此选择在同一张图上进行随机测试

# 初始化图
for i in range(people_num):
    instrlist += "ap"
    ……
for i in range(group_num):
    instrlist += "ag"
    ……
# 随机枚举指令，进行数据生成
for i in range(LENGTH - people_num):
    instr = choice(instrs)
    ……
    if instr == "qci":
    　　qci_num += 1
    if instr == "qlc":
    　　qlc_num += 1
    if instr == 'ar':
    　　Instrlist += ' '
    　　……
    elif instr == 'atg' or instr == 'dfg':
   　　 ……
    elif instr == 'qv' or instr == 'qci':
    　　……
    ……

而针对时间的压力测试，本单元只针对qbs指令（是否使用并查集、并查集是否路径压缩），qlc指令（是否对最小生成树朴素算法进行优化）构造了零图和完全图。(第三次互测摸了

二、架构设计及维护策略

UML类图

考虑到简洁性，上述UML类图没有包含异常类

架构设计

本单元的架构以及图的模型，基本上由官方包搭建好了，只要阅读并正确理解JML描述，大家的架构应该相差不大。阅读官方包不难发现，本单元作业主要是维护一个社交网络，以Person为图的节点，以Relation为图的无向边。针对这个图进行诸如：查询连通、最小生成树、最短路径等一系列操作。而我们要重点关注的，应该是使用怎样的数据结构、算法、容器来对图的一些属性进行维护，以便能够简洁、迅速地完成指令对图的修改和查询。

维护策略

路径压缩的并查集

通过阅读JML规格，不难发现本单元作业中的qci指令即为查询图中两点是否连通，qbs指令为查询图中连通分支数量，qlc指令为查询包含某点的最小生成树。这三个查询都能够借助并查集实现。相信并查集的相关实现大家都不陌生，在本单元作业中具体而言就是，在add person时向并查集中添加节点并将其设为一个源点（也就是它所在集合里的boss），在add relation时检查是否需要合并两个集合，更新源点。使用路径压缩的写法能够防止图退化成一条链时，多次查询首尾两个点连通关系可能会导致超时。同时以下给出的写法采用的是非递归的形式，这能避免上面描述的链结构时可能出现的爆栈情况。

public int find(int x) {
    int cur;
    int tmp;
    int root;
    root = x;
    while (root != origin.get(root)) {
        root = origin.get(root);//查找根节点
    }
    cur = x;
    while (cur != root)             //非递归路径压缩操作
    {
        tmp = origin.get(cur);        //用tmp暂存parent[cur]的父节点
        origin.replace(cur,root);        //parent[x]指向根节点
        cur = tmp;                    //cur指向父节点
    }
    return root;         //返回根节点的值
}

基于基数排序优化的克鲁斯卡尔算法

第二次作业中的qlc指令实际上是查询包含某节点的最小生成树，最小生成树算法一般为prim和kruskal算法，但两算法算法的朴素算法时间复杂度都是O(n²)/O(e²)，在本次作业中1e4量级的数据会超时。考虑到作业中稀疏图出现的概率应该是大于稠密图的，因此最终选择使用了kruskal算法。而针对该算法的优化就是对遍历的边按权值进行排序。其实使用堆排序优化就可以，java还有现成的优先队列用，但自己想尝试写写看基数排序效果怎么样，结果发现不如同学的堆排序（小丑竟是我自己。

具体写法其实和朴素算法几乎一样，不同的是需要在遍历前对边进行排序，而找边就不需要每次通过遍历寻找最小边，直接从当前索引下标开始，寻找能连通两个非连通分支的边即可。

public int getValue() {
        // 获取连通分支中的所有无向边
        for (Person person1:people) {
            ......
            ArrayList<Person> persons = ((MyPerson) person1).getAcquaintance();
            for (int i = 0;i < persons.size();i++) {
                ......
                edges.addEdge(new Edge(value.get(i),id1,id2));
            }
        }
　　　　 // 对边进行升序排序
        edges.radixSort();
        ......
        while (cnt < sum && index < sumOfEdge) {
            Edge edge = edges.getEdge(index);
            // 选择能将两个非连通分支连通的最短边
            while (isCircle(edge)) {
                index++;
                edge = edges.getEdge(index);
            }
            rst += edge.getValue();
            ......
            //更新并查集
　　　　　　　searchSet.merge(searchSet.find(edge.getFrom()),searchSet.find(edge.getTo()));
            ......
        }
        return rst;
    }

堆优化的迪杰斯特拉算法

第三次作业中的sim指令实际上是查询两个连通点之间的最短路径，最短路径的算法有弗洛伊德算法（时间复杂度O(n³)，pass），迪杰斯特拉算法（朴素写法时间复杂度O(n²),pass；堆优化后O((m+n)logn)，可以考虑）以及SPFA算法（平均O(m),最坏O(mn)），由于对于网络流的算法不是很熟悉，同时在网上查阅资料发现有很多前辈指出SPFA算法的时间复杂度很玄学，因此最后选择使用了堆优化的迪杰斯特拉算法。

三、分析代码中的性能问题

比较容易发现的性能问题在维护策略中已经给出，但除此之外这次作业中还有不少可能因为性能问题而超时的地方。

说到底JML仅仅是通过规格化的语言描述了方法和类的功能、执行条件、过程。规格化语言是死板的，但写程序的人是灵活的，单纯依照JML的描述编写的代码很有可能是性能最差的（尤其是比较复杂的方法，涉及到多重循环时）。在阅读JML编写程序时，不应该不加以思考，盲目地跟从JML的描述coding，而是要充分理解其描述的功能，思考某些循环是否真的有必要？某些嵌套循环是否能通过别的方法去掉？笔者认为只要在编写过程中对每个描述持有怀疑态度，就基本不会出现性能问题。

除开维护策略中提到的以外，JML给出的写法可以优化的地方大概有以下几点：

善用容器

本单元作业出现的各个类的对象都有其唯一的id，善用HashMap、HashSet等容器，可以去除JML中出现的很多循环。比如Group类中的hasPerson()方法，JML描述为

ensures \result == (\exists int i; 0 <= i && i < people.length; people[i].equals(person));

看起来是一个O（n）的方法，实际上使用HashMap作为存储Person的容器，利用HashMap.containsKey()方法，就能优化至O（1）的复杂度。诸如此类的优化本单元作业里还有很多，这里就不再赘述。

小心嵌套调用

有的函数从表面上看只是O(n)的时间复杂度，然后其中却暗藏杀机，它在每次循环的时候调用了某个方法，而当该方法也是0(n)的复杂度时，实际上最后运行下来就会是O(n²)的复杂度，存在TLE的风险。比如Group类中的getAgeVar()方法，JML描述为

ensures \result == (people.length == 0? 0 : ((\sum int i; 0 <= i && i < people.length;(people[i].getAge() - getAgeMean()) * (people[i].getAge() - getAgeMean())) / people.length));

这个描述看上去时间复杂度只有O(n)，但它每次循环都调用了getAgeMean()方法，该方法的JL描述同样为O(n)的时间复杂度，这样嵌套调用最终就导致了getAgeVar()方法的复杂度变成了O(n²)。实际上第二次作业互测同组就有同学对于qgvs指令没有考虑函数嵌套调用出现了tle。

四、 Network扩展

任务分析

对于Advertiser、Producer、Customer可以分别继承抽象类Person，共有id、money等属性，sendMessage()等方法。
对于消费者，可以添加一个commodityType[] commodityPrefer属性记录偏好，可根据偏好搜索商品。
对于Advertiser，可以使用单例的模式，将其视为一个“平台”会更加方便。
对于advertise、produce、purchase可以分别继承类Message，将这三个行为视为一个Person对象发送的信息。

方法JML

sendAdvertisement()

/*@ public normal_behavior
  @ requires containsMessage(id) && (getMessage(id) instanceof Advertisement);
  @ assignable messages;
  @ assignable people[*].messages;
  @ ensures !containsMessage(id) && messages.length == \old(messages.length) - 1 &&
  @         (\forall int i; 0 <= i && i < \old(messages.length) && \old(messages[i].getId()) != id;
  @         (\exists int j; 0 <= j && j < messages.length; messages[j].equals(\old(messages[i]))));
  @ ensures (\forall int i; 0 <= i && i < people.length; person[i].likeType(\old(((Advertisement)getMessage(id))).getType) ==> 
  @         ((\forall int j; 0 <= j && j < \old(person[i].getMessages().size());
  @          person[i].getMessages().get(j+1) == \old(person[i].getMessages().get(j))) &&
  @         (person[i].getMessages().get(0).equals(\old(getMessage(id)))) &&
  @         (person[i].getMessages().size() == \old(person[i].getMessages().size()) + 1)));
  @ also
  @ public exceptional_behavior
  @ signals (MessageIdNotFoundException e) !containsMessage(id);
  @ signals (MessageNotAdverException e) containsMessage(id) && !(getMessage(id) instanceof Advertisement);
  @*/
public void sendAdvertisement(int id) throws MessageIdNotFoundException, MessageNotAdverException;

sendPurchase()

/*@ public normal_behavior
  @ requires containsMessage(id) && (getMessage(id) instanceof Purchase);
  @ requires (getMessage(id).getPerson1() instanceof Customer) && (getMessage(id).getPerson2() instanceof Producer);
  @ assignable messages;
  @ assignable getMessage(id).getPerson1().money;
  @ assignable getMessage(id).getPerson2().messages, getMessage(id).getPerson2().money;
  @ ensures !containsMessage(id) && messages.length == \old(messages.length) - 1 &&
  @         (\forall int i; 0 <= i && i < \old(messages.length) && \old(messages[i].getId()) != id;
  @         (\exists int j; 0 <= j && j < messages.length; messages[j].equals(\old(messages[i]))));
  @ ensures (\old(getMessage(id)).getPerson1().getMoney() ==
  @         \old(getMessage(id).getPerson1().getMoney()) - ((Purchase)\old(getMessage(id))).getMoney() &&
  @         \old(getMessage(id)).getPerson2().getMoney() ==
  @         \old(getMessage(id).getPerson2().getMoney()) + ((Purchase)\old(getMessage(id))).getMoney());
  @ ensures (\forall int i; 0 <= i && i < \old(getMessage(id).getPerson2().getMessages().size());
  @          \old(getMessage(id)).getPerson2().getMessages().get(i+1) == \old(getMessage(id).getPerson2().getMessages().get(i)));
  @ ensures \old(getMessage(id)).getPerson2().getMessages().get(0).equals(\old(getMessage(id)));
  @ ensures \old(getMessage(id)).getPerson2().getMessages().size() == \old(getMessage(id).getPerson2().getMessages().size()) + 1;
  @ ensures getProduct(\old((Purchase)getMessage(id)).getProductId()).getNum() == \old(getProduct(\old((Purchase)getMessage(id)).getProductId()).getNum()) + 1;
  @ also
  @ public exceptional_behavior
  @ signals (MessageIdNotFoundException e) !containsMessage(id);
  @ signals (MessageNotPurchaseException e) containsMessage(id) && !(getMessage(id) instanceof Purchase);
  @ signals (PersonNotCustomerException e) containsMessage(id) && (getMessage(id) instanceof Purchase) && 
  @         !(getMessage(id).getPerson1() instanceof Customer);
  @ signals (PersonNotAdvertiserException e) containsMessage(id) && (getMessage(id) instanceof Purchase) && 
  @         (getMessage(id).getPerson1() instanceof Customer) && !(getMessage(id).getPerson2() instanceof Producer);
  @*/
public void sendPurchase(int id) throws
        MessageIdNotFoundException, MessageNotPurchaseException, PersonNotCustomerException, PersonNotAdvertiserException;

querySale()

/*@ public normal_behavior
  @ requires containsProduct(id);
  @ ensures \result == getProduct(id).getNum();
  @ also
  @ public exceptional_behavior
  @ signals (ProductIdNotFoundException e) !containsProduct(id);
  @*/
public /*@ pure @*/ int querySale(int id) throws ProductIdNotFoundException;

五、学习体会

切实体会到JML语言的严谨性带来的力量，能够零歧义地描述一个模块的功能和运行流程，我认为是一个很了不起的作品。
同时JML语言一定程度上也存在局限性和缺点，在面对较为复杂的方法时，JML的阅读和书写都会变得非常复杂。以qlc方法为例，刚开始写第二次作业时没有注意到指导书上提示的“最小生成树”算法，初见qlc方法的JML描述不得不让我望而生畏。层层剖析它的括号，用纸笔一点点推导，二十多分钟后才终于恍然大悟，这xx不就是最小生成树吗？如果用数学语言甚至一行公式就能描述清楚。。。

posted @ 2022-06-01 17:00 Kazeya_y 阅读(63) 评论(1) 编辑收藏举报

刷新页面返回顶部

Kazeya