2017-2018-1 20155336 《信息安全系统设计基础》第十四周学习总结

找出全书你认为学得最差的一章,深入重新学习一下

  • 总结新的收获
  • 给你的结对学习搭档讲解或请教,并获取反馈

再次深入学习并发编程

  • 本周老师让我们学习自己认为学的最差的一章,我学习的是第十二章。一方面,并发进场出现在计算机系统许多不同的层面上,使用非常广泛;另一方面,这个知识背景的硬件异常处理程序,Linux信号处理程序非常常见。所以为了更好的深入理解计算机系统,必须要掌握好这一章的知识,所以借此机会重新学习这一章的内容。

教材学习内容详细总结

  • 到目前为止,我们主要将并发看做是一种操作系统内核用来运行多个应用程序的机制。但是,并发不仅仅局限于内核。它也可以在应用程序中扮演重要角色。例如,我们已经看到Unix信号处理程序如何允许应用响应异步事件,例如用户键入。或者程序访问虚拟存储器的个未定义的区域.应用级并发在其他情况下也是很有用的,例如:
    • 访问慢速I/O设备
    • 与人交互
    • 过推迟工作以降低延迟
    • 服务多个网络客户端
    • 在多核机器上进行并行计算
    • 现代操作系统提供了三基本的构造并发程序的方法:进程、I/O多路复用、线程。
12.1 基于进程的并发编程
  • 1.在接受连接请求之后,服务器派生一个子进程,这个子进程获得服务器描述符表的完整拷贝。子进程关闭它的拷贝中的监听描述符3,而父进程关闭它的已连接描述符4的拷贝,因为不再需要这些描述符了。这就得到了图中的状态,其中子进程正忙于为客户端提供服务。因为父子进程中的已连接描述符都指向同一个文件表表项,所以父进程关闭它的已连接描述符的拷贝是至关重要的。否则,将永远不会释放已连接描述符4的文件表条目,而且由此引起的存储器泄漏将最终消耗尽可用的存储器,使系统崩溃。

  • 2.现在假设在父进程为客户端1创建了子进程之后,它接受一个新的客户端2的连接请求,并返回一个新的已连接描述符(比如描述符5)如图所示。然后,父进程又派生另一个子进程,这个子进程用已连接描述符5为它的客户端提供服务,如图所示。此时,父进程正在等待下一个连接请求,而两个子进程正在形地为它们各自的客户端提供服务。

12.1.1 基于进程的并发服务器
  • 一个基于进程的并发的echo服务器的代码,重要说明:
    • 首先,通常服务器会运行很长时间,所以我们必须包括一个SIGCHLD处理程序,来回收僵死子进程资源。
    • 其次,父子进程必须关闭他们的connfd拷贝。
    • 最后,因为套接字的文件表表项的引用计数,直到父子进程的connfd都关闭了,到客户端的连接才会终止。
12.1.2 关于进程的优劣
  • 关于进程的优劣,对于在父、子进程间共享状态信息,进程有一个非常清晰的模型:共享文件表,但是不共享用户地址空间。进程有独立的地址控件爱你既是优点又是缺点。由于独立的地址空间,所以进程不会覆盖另一个进程的虚拟存储器。但是另一方面进程间通信就比较麻烦,至少开销很高。
12.2 基于i/o多路复用的并发编程
  • 1.比如一个服务器,它有两个I/O事件:1)网络客户端发起连接请求,2)用户在键盘上键入命令行。我们先等待那个事件呢?没有那个选择是理想的。如果accept中等待连接,那么无法相应输入命令。如果在read中等待一个输入命令,我们就不能响应任何连接请求(这个前提是一个进程)。
  • 2.针对这种困境的一个解决办法就是I/O多路复用技术。基本思想是:使用select函数,要求内核挂起进程,只有在一个或者多个I/O事件发生后,才将控制返给应用程序。如图所示:横向的方格可以看作是一个n位的描述符向量。现在,我们定义第0位描述是“标准输入”,第3位描述符是“监听描述符”。
12.2.1 基于i/o多路复用的并发事件驱动服务器
  • I/O多路复用可以用做并发事件驱动程序的基础,在事件驱动程序中,流是因为某种事件而前进的,一般概念是将逻辑流模型化为状态机,不严格地说,一个状态机就是一组状态,输入事件和转移,其中转移就是将状态和输入事件映射到状态,每个转移都将一个(输入状态,输入事件)对映射到一个输出状态,自循环是同一输入和输出状态之间的转移,通常把状态机画成有向图,其中节点表示状态,有向弧表示转移,而弧上的标号表示输人事件,一个状态机从某种初始状态开始执行,每个输入事件都会引发一个从当前状态到下一状态的转移,对于每个新的客户端k,基于I/O多路复用的并发服务器会创建一个新的状态机S,并将它和已连接描述符d联系起来。
12.2.2 i/o多路复用技术的优劣
  • 1.事件驱动设计的一个优点是,它比基于进程的设计给了程序员更多的对程序行为的控制。例如我们可以设想编写一个事件驱动的并发服务器,为某些客户提供他们需要的服务,而这对于新进程的并发服务器来说,是很困难的
  • 2.另一个优点是,一个基于I/O多路复用的事件驱动器是运行在单一进程上下文中的,因此每个逻辑流都能访问该进程的全部地址空间。这使得在流之间共享数据变得很容易,一个与作为单个进程运行相关的优点是,你可以利用熟悉的调试工具,例如GDB,来调试你的并发服务器,就像对顺序程序那样。最后,事件驱动设计常常比基于进利的设计要高效得多,因为它们不需要进程上下文切换来调度新的流。
  • 3.事件驱动设计的一个明显的缺点就是编码复杂,我们的事件驱动的并发服务器需要的代度是指每个逻辑流每个时间片执行的指令数量。基于事件的设计的另一个重大缺点是它们不能充分利利用多核处理器。
12.3 基于线程的并发编程
  • 每个线程都有自己的线程上下文,包括一个线程ID、栈、栈指针、程序计数器、通用目的寄存器和条件码。所有的运行在一个进程里的线程共享该进程的整个虚拟地址空间。由于线程运行在单一进程中,因此共享这个进程虚拟地址空间的整个内容,包括它的代码、数据、堆、共享库和打开的文件。
12.3.1 线程执行模型
  • 线程执行的模型。线程和进程的执行模型有些相似。每个进程的声明周期都是一个线程,我们称之为主线程。但是大家要有意识:线程是对等的,主线程跟其他线程的区别就是它先执行。
12.3.2 posix线程
  • POSIX线程是在C程序中处理线程的一个标准接口。它最早出现在1995年,而且在大多数Unix系统上都可用。Pthreads定义了大约60个函数,允许程序创建、杀死和回收线程,与对等线程安全地共享数据,还可以通知对等线程系统状态的变化。
12.3.3 创建线程
  • 线程通过调用pthread_create函数来创建其他进程。


12.3.4 终止线程
  • 一个线程是以下列方式之一来终止的。

    • 当顶层的线程例程返回时,线程会隐式地终止
  • 通过调用pthread_exit函数,线程会显它会等待所有其他对等线程终止,然后再终止式地终止。

    • 某个对等线程调用Unixe×it函数,该函数终止进程以及所有与该进程相关的线程
12.3.5 回收已终止线程的资源

12.3.6 分离线程

12.3.7 初始化线程

12.4 多线程程序中的共享变量
  • 全局变量和static 变量 是存储在数据段,所以,多线程共享之!
  • 由于线程的栈是独立的,所有线程中的自动变量是独立的。即使多个线程运行同一段代码总的自动变量,那么他们的值也是根据线程的不同而不同。
  • 比如C++中,类属性不是在用户栈中的。所以线程共享之!
12.4.1 线程存储器模型
  • 1.一组并发线程运行在一个进程的上下文中。每个线程都有它自己独立的线程上下文,包括线程ID、栈、栈指针、程序计数器、条件码和通用目的寄存器值。每个线程和其他线程一起共享进程上下文的剩余部分。这包括整个用户虚拟地址空间,它是由只读文本代码、读/写数据、堆以及所有的共享库代码和数据区域组成的。线程也共享同样的打开文件的集合。
  • 2.从实际操作的角度来说,让一个线程去读或写另一个线程的寄存器值是不可能的。另一方面,任何线程都可以访问共享虚拟存储器的任意位置。如果某个线程修改了一个存储器位置,那么其他每个线程最终都能在它读这个位置时发现这个变化。因此,寄存器是从不共享的,而虚拟存储器总是共享的。
  • 3.各自独立的线程栈的存储器模型不是那么整齐清楚的。这些栈被保存在虚拟地址空间的栈区域中,并且通常是被相应的线程独立地访问的。我们说通常而不是总是,是因为不同的线程栈是不对其他线程设防的所以,如果个线程以某种方式得到个指向其他线程栈的指慧:那么它就可以读写这个栈的任何部分。
12.4.2 将变量映射到存储器
  • 线程化的C程序中变量根据它们的存储类型被映射到虚拟存储器:
    • 1.全局变量。全局变量是定义在函数之外的变量,在运行时,虚拟存储器的读/写区域域只包含每个全局变量的一个实例,任何线程都可以引用。例如第5行声明的全局变量ptr在虚拟存储器的读/写区域中有个运行时实例,我们只用变量名(在这里就是ptr)来表示这个实例。
    • 2.本地自动变量,本地自动变量就是定义在函数内部但是没有static属性的变量,在运行时,每个线程的栈都包含它自己的所有本地自动变量的实例。即使当多个线程执行同一个线程例程时也是如此。例如,有个本地变量tid的实例,它保存在主线程的栈中。我们用tid.m来表示这个实例
    • 3.本地静态变量
12.4.3 共享变量
  • 我们说一个变量V是共享的,当且仅当它的一个实例被一个以上的线程引用。例如,示例程序中的变量cnt就是共享的,因为它只有一个运行时实例,并且这个实例被两个对等线程引用在另一方面,myid不是共享的,因为它的两个实例中每一个都只被一个线程引用。然而,认识到像msgs这样的本地自动变量也能被共享是很重要的。
12.5 用信号量同步线程
  • 信号量通常称之为PV操作,虽然它的思想是将临界代码保护起来,达到互斥效果。这里面操作系统使用到了线程挂起。

  • 将线程i的循环代码分解成五个部分:

12.5.1 进度图
  • 进程图将n个并发进程的执行模型化为一条n维笛卡尔空间中的轨迹线。
12.5.2 信号量
  • 信号量s是具有非负整数值的全局变量,只能由两种特殊的操作来处理,这两种操作称为P和V
  • P(s):如果s是非零的,那么P将s减1并且立即返回。如果s为零,那么就挂起这个线程,直到s变为非零,而一个y操作会重启这个线程。在重启之后,P操作将s减1并将控制返回给调用者
  • V(s):V操作将s加1。如果有任何线程阻塞在P操作等待s变成非零,那么V操作会重启这些线程中的一个,然后该线程将s减1,完成它的P操作,P中的测试和减1操作是不可分割的,也就是说,一旦预测信号量s变为非零,就会将s减1,不能有中断。V中的加1操作也是不可分割的,也就是加载、加和存储信号量的过程中没有中断。注意,V的定义中没有定义等待线程被重新启动的顺序。唯—的要求是V必须只能重启一个正在等待的进程。
12.5.3 使用信号量来实现互斥
  • 信号量提供了一种很方便的方法来确保对共享变量的互斥访问。基本思想是将每个共享变量(或者一组相关的共享变量)与一个信号量联系起来 。以这种方式来保护共享变量的信号量叫做二元信号量,因为它的值总是0或者1。以提供互斥为目的的二元信号量常常也称为互斥锁。在一个互斥锁上执行P操作称为对互斥锁加锁。类似地,执行V操作称为对互斥锁解锁。对一个互斥锁加了锁但是还没有解锁的线程称为占用这个互斥锁。一个被用作一组可用资源的计数器的信号量称为计数信号量。关键思想是这种P和V操作的结合创建了一组状态,叫做禁止区。因为信号量的不变性,没有实际可行的轨迹线能够包含禁止区中的状态。而且,因为禁止区完全包括了不安全区,所以没有实际可行的轨迹线能够接触不安全区的任何部分。因此,每条实际可行的轨迹线都是安全的,而且不管运行时指令顺序是怎样的,程序都会正确地增加计数器的值。
12.5.4 利用信号量来调度共享资源
  • 1.生产者-消费者问题。

  • 2.读者—写者问题:

    • 读者优先,要求不让读者等待,除非已经把使用对象的权限赋予了一个写者。
    • 写者优先,要求一旦一个写者准备好可以写,它就会尽可能地完成它的写操作。
    • 饥饿是一个线程无限期地阻塞,无法进展。
12.5.5 综合:基于预线程化的并发服务器
  • 在如图所示的并发服务器中,我们为每一个新客户端创建了一个新线程这种方法的缺点是我们为每一个新客户端创建一个新线程,导致不小的代价。一个基于预线程化的服务器试图通过使用如图所示的生产者-消费者模型来降低这种开销。服务器是由一个主线程和一组工作者线程构成的。主线程不断地接受来自客户端的连接请求,并将得到的连接描述符放在一个不限缓冲区中。每一个工作者线程反复地从共享缓冲区中取出描述符,为客户端服务,然后等待下一个描述符。

12.6 使用线程提高并行性
  • 到目前为止,在对并发的研究中,我们都假设并发线程是在单处许多现代机器具有多核处理器。并发程序通常在这样的机器上运理器系统上执行的。然而,在多个核上并行地调度这些并发线程,而不是在单个核顺序地调度,在像繁忙的Web服务器、数据库服务器和大型科学计算代码这样的应用中利用这种并行性是至关重要的。
12.7.1 线程安全
  • 我们编程过程中,尽可能编写线程安全函数,即一个函数当且仅当被多个并发线程反复调用时,它会一直产生正确的结果。如果做不到这个条件我们称之为线程不安全函数。下面介绍四类线程不安全函数:

    • 不保护共享变量的函数。解决办法是PV操作。
    • 保持跨越多个调用的状态函数。比如使用静态变量的函数。解决方法是不要使用静态变量或者使用可读静态变量。
    • 返回指向静态变量的指针的函数。解决方法是lock-and-copy(枷锁-拷贝)
    • 调用线程不安全函数的函数
  • 由于PV操作不当,可能造成死锁现象。这在程序中也会出现。

12.7.2 可重入性.
  • 有一类重要的线程安全函数,叫做可重入函数。其特点在于他们具有这样一种属性:当它们被多个线程调用时,不会引用任何共享数据。尽管线程安全和可重入有时会(正确地)被用做同义词,但是它们之间还是有清晰的技术差别的,值得留意。图展示了可重入函数、线程安全函数和线程不安全函数之间的集合关系。所有函数的集合被划分成不相交的线程安全和线程不安全函数集合。可重入函数集合是线程安全函数的一个真子集。

  • 可重入函数通常要比不可重入的线程安全的函数高效一些,因为它们不需要同步操作。更进一步来说,将第2类线程不安全函数转化为线程安全函数的唯一方法就是重写它,使之变为可重入的。

12.7.3 在线程化的程序中使用已存在的库函数

12.7.4 竞争
  • 当一个程序的正确性依赖于一个线程要在另一个线程到达y点之前到达它的控制流中的X点时,就会发生竞争。通常发生竞争是因为程序员假定线程将按照某种特殊的轨迹正确工作忘记了另一条准则规定:线程化的程序必须对任何可行的轨迹线都正确工作。
12.7.5 死锁
  • 1.信号量引入了一种潜在的令人厌恶的运行时错误,叫做死锁。它指的是一组线程被阻塞了,等待一个永远也不会为真的条件。进度图对于理解死锁是一个无价的工具。
  • 2.关于死锁的重要知识:
  • 3.程序员使用P和V操作漏序不当,以至于两个信号量的禁止区域重叠。如果某个执行轨迹线碰巧到达了死锁状态d那么就不可能有进一步的进展了,因为重叠的禁止区域阻塞了每个合法方向上的进展。换句话说,程序死锁是因为每个线程在等待一个根本不可能发生的V操作
  • 4.重叠的禁止区域引起了一组称为死锁区域的状态。轨迹线可以进入死锁区域,但是它们不可能离开
  • 5.死锁是个相当困难的问题,因为它不总是可预测的。一些幸运的执行轨迹线将绕开死锁区域,而其他的将会陷入这个区域。

小结

  • 1.一个并发程是由在时间上重叠的一组逻辑流组成的。在这一章中,我们学习了三种不同的应用程序程、I/O多路复用和线程。我们以一个并发网络服务器作为贯穿全章的应用程序。
  • 2.进程是由内核自动调度的,而且因为它们有各自独立的虚拟地址空间,所以要实现共享数据,必须要有显式的IPC机制。事件驱动程序创建它们自己的并发逻辑流,这些逻辑流被模型之间共享数据速度很快而且很容多路复用来显式地调度这些流。
  • 3.无论哪种并发机制,同步对共享数据的并发访问都是一个困难的问题。提出对信号量的P和V操作就是为了帮助解决这个问题。信号量操作可以用来提供对共享数据的互斥访问,也对诸如生产者-消费者程序中有限缓冲区和读者―写者系统中的共享对象这样的资源访问进行调度。
  • 4.并发也引入了其他一些困难的问题。被线程调用的函数必须具有一种称为线程安全的属性。我们定义了四类线程不安全的函数,以及一些将它们变为线程安全的建议。可重入函数是线程安全函数的一个真子集,它不访问任何共享数据。可重入函数通常比不可重入函数更为有效,因为它们不需要任何同步原语。竞争和死锁是并发程序中出现的另一些困难的问题。当程序员错误地假设逻辑流该如何调度时,就会发生竞争。当一个流等待一个永远不会发生的事件时,时,就会产生死锁。

教材习题学习

12.1
  • 父进程关闭了已连接描述符后,子进程仍能够使用该描述符和客户端通信的原因是?
  • 解答:当父进程派生子进程是,它得到一个已连接描述符的副本,并将相关文件表中的引用计数从1增加到2.当父进程关闭他的描述符副本时,引用计数从2减少到1.因为内核不会关闭一个文件,直到文件表中他的应用计数值变为0,所以子进程这边的连接端将保持打开
12.3
  • 在Linux系统里,在标准输入上键入Ctrl+D表示EOF,若阻塞发生在对select的调用上,键入Ctrl+D会发生什么?
  • 解答:会导致select函数但会,准备好的集合中有描述符0
12.4
  • 在服务器中,每次使用select前都初始化pool.ready_set变量的原因?
  • 解答:因为pool.ready_set即作为输入参数也作为输出参数,所以在每一次调用select前都重新初始化他。输入时,他包含读集合,在输出,它包含准备好的集合
12.16
  • 编写hello.c一个版本,创建和回收n个可结合的对等线程,其中n是一个命令行参数。

  • 代码如下:

      #include <stdio.h>
      #include "csapp.h"
      void *thread(void *vargp);
      #define DEFAULT 4
      int main(int argc, char* argv[]) {
        int N;
        if (argc > 2)
          unix_error("too many param");
        else if (argc == 2)
          N = atoi(argv[1]);
        else
          N = DEFAULT;
      
        int i;
        pthread_t tid;
        for (i = 0; i < N; i++) {
          Pthread_create(&tid, NULL, thread, NULL);
      	  }
        Pthread_exit(NULL);
      }
      
      void *thread(void *vargp) {
        printf("Hello, world\n");
        return NULL;
      }
    
12.17
  • 修改程序的bug,要求程序睡眠1秒钟,然后输出一个字符串

  • 代码如下:

      #include "csapp.h"
      void *thread(void *vargp);
      int main()
      {
        pthread_t tid;
      	
        Pthread_create(&tid, NULL, thread, NULL);
        // exit(0);
        Pthread_exit(NULL);
      }
      
      /* Thread routine */
      void *thread(void *vargp)
      {
        Sleep(1);
        printf("Hello, world!\n");
        return NULL;
      }
    

上周考试错题总结

第3题
  • 大多数计算机使用同样的机器指令来执行无符号和有符号加法。(A)

    • A正确
    • B错误
    • C不确定
  • 解析:书上63页,基础知识。

第10题
  • Y86-64中()指令没有访存操作.(A B E)

    • A rrmovl
    • B irmovq
    • C rmmovq
    • D pushq
    • E jXX
    • F ret
  • 解析:在Y86-64中,只有rmmovq,pishq,ret有访存操作。

第22题

  • 针对以上代码:gcc -c *.c 可以得到m.o,swap.o两个模块,哪些符号会出现在swap.o模块的.symtab条目中( A C D)

    • A buf
    • B temp
    • C swap
    • D buffp0
  • 解析:temp是局部变量,不出现在符号表中。

第29题
  • Unix/Linux中通过调用( D )可以获取子进程PID。

    • A getpid()
    • B getppid()
    • C getcpid()
    • D fork()
  • 解析:在fork的时候记录下子进程的pid

第39题
  • 有关echo服务器代码,编译后的可执行程序为echoserv,下面说法正确的是(A C D )

    • A .
      该echo服务器是迭代服务器
    • B .
      该echo服务器是并发服务器
    • C .
      echoserv应该先于eccho客户端启动
    • D .
      ./echoserv 8089, 8089是服务器端的端口
    • E .
      ./echoserv 8089, 8089是客户端的端口
  • 解析:./echoserv 8089, 8089是服务器端的端口而不是客户端的端口!

本周代码托管链接

代码链接

结对及互评

本周结对学习情况

  • 20155315
  • 同伴重点学习了第九章的教材内容,我也重新回顾了第十二章的知识重点。

其他(感悟、思考等)

本周老师让我们学习自己认为学的最差的一章,我学习的是第十二章。一方面,并发进场出现在计算机系统许多不同的层面上,使用非常广泛;另一方面,这个知识背景的硬件异常处理程序,Linux信号处理程序非常常见。所以为了更好的深入理解计算机系统,必须要掌握好这一章的知识,所以借此机会重新学习这一章的内容。

学习进度条

代码行数(新增/累积) 博客量(新增/累积) 学习时间(新增/累积) 重要成长
目标 5000行 30篇 400小时
第一周 200/200 2/2 20/20
第二周 300/500 2/4 18/38
第三周 500/1000 3/7 22/60
第四周 600/1300 4/9 30/90
第五周 650/1300 5/9 40/90
第六周 700/1300 6/9 50/90
第七周 800/1300 7/9 60/90
第八周 1200/1700 8/10 80/110
第九周 1800/2000 9/11 100/120
第十一周 2400/3000 10/15 120/140
第十三周 3000/3500 11/15 140/160
第十四周 3400/3800 12/15 155/170

尝试一下记录「计划学习时间」和「实际学习时间」,到期末看看能不能改进自己的计划能力。这个工作学习中很重要,也很有用。
耗时估计的公式
:Y=X+X/N ,Y=X-X/N,训练次数多了,X、Y就接近了。

参考:软件工程软件的估计为什么这么难软件工程 估计方法

  • 计划学习时间:15小时

  • 实际学习时间:10小时

(有空多看看现代软件工程 课件
软件工程师能力自我评价表
)

参考资料

posted on 2017-12-21 20:09  丿尛丶熊  阅读(165)  评论(1编辑  收藏  举报