Coursera Programming Languages, Part B 华盛顿大学 Week 1

来上 programming language 的第二 part 了！这一部分介绍的语言是 Racket，之前就听说过它独特的括号语法，这次来具体了解一下

Racket definitions, functions and conditionals

definition

(define x 3)
(define y (+ x 3))    ; 在 racket 中，+ 是一个函数，后面接着函数的两个参数

functions

(define cube1
  lambda (x) (* x x x))   ; lambda 关键字类似于 ML 中的 fn, 创建一个匿名函数，格式为 lambda(args) (function body)
(define (cube2 x)
  (* x x x))              ; cube1 的 syntactic sugar 写法
(define (pow1 x y)
  (if (= y 0) 
      1
      (* x (pow1 x (- y 1)))))

conditionals
racket 中的条件语句格式为 (if e1 e2 e3)
翻译为 C 即 if (e1) then e2 else e3

Racket Lists

(list e1 e2 ... en)   ; build a list
null                  ; empty list
cons                  ; connect 2 lists
car                   ; get the head of a list
cdr                   ; get the tail of a list
null?                 ; check whether a list is empty

syntax and parenthetes

Racket 的整个语法结构是建立在括号之上的，而且非常简洁！
Racket 中的一个语素 (term) 有以下几种类型：

Atom (不可再分，原子)：如 #t,#f,"hi", null (和线性表中的定义一样！)
Special form : 如 lambda,define,if
A sequence of terms in parens: (t1 t2 ... tn)
注意，如果 t1 属于 special form 那么整个序列的格式需满足 t1 的要求
否则序列为一个函数调用 (function call)

Racket 语言其实是一个前序序列，我们可以对一条条语句建立对应的语法树
由于采取前序序列，可以保证每一条语句不会产生歧义 (ambiguity)，且不需要讨论优先级 (operator precedence) 问题
在这个语法树中：

Atom 是叶子节点
Sequence 的头元素是内部结点，而其余的元素代表的结点都在该结点的子树中

Dynamic typing

与 Static typing 不同，在函数实际运行之前不能发现类似 (n * x) 的错误
但是可以定义许多灵活的的数据结构，不会受到类型的束缚，例如，一个 List 的元素可以不是同一类型的
(list (list 4 5) 5 "hi" (list foo "hello") 4)

Cond

cond 语法是多个嵌套 if 语句的语法糖
对于嵌套 if 语句：

(if e1 e2
  (if e3 e4 
    (if e5 e6 e7)))

可以运用语法糖 cond 写成

(cond [e1 e2]
      [e3 e4]
      [e5 e6]
      [#t e7])  ; the 1st element in cond's last bracket should always be #t

值得注意的是，在 Racket 中，除了 #f 之外的所有 term 都被 evaluate 成 #t
所以，if 或者 cond 的条件语句可以是除了 #f 或 #t 以外的 term

local bindings

引入用于定义本地变量的 special form -> let let* letrec
格式如下：

(let ([x1 e1] [x2 e2] ...[xn en]) body)

本地变量在 let 后的第一个括号中进行定义，并且每一对变量-值对都被包在中括号里
与 ML 中我们已熟知的 let 不同，所有在 let 环境中的表达都是在 let 之前的环境中进行 evaluate 的
例如：

(define (silly-double x)
  (let ([x (+ x 3)]
        [y (+ x 3)])
  (+ x y -5)))

若传入的参数 x 为 3，若按照传统的 dynamic type 语言，let 环境中的 x 值应为 6，而 y 则是 9 (因为第二个 x 将传入的参数 x shadow 掉了)
但实际上 x 与 y 都为 6，evaluate 它们表达的环境是 let 之前的环境，也就是 x 为 3 的环境；至于 let 环境中的 x 不参与对 y 的 evaluate
而 let* 则与 ML 中 let 的 evaluate 原则相同

(define (silly-double x)
  (let* ([x (+ x 3)]
         [y (+ x 3)])
  (+ x y -5)))

这里，let* expression 中的 x 为 6，y 为 9
最后的 letrec 则在定义 mutual recursion 时非常常用 (除了定义 mutual recursion 之外，其他地方最好不用 letrec)
在 letrec 环境定义新 binding 时，你既可以使用之前的 bindings，也可以使用之后的，但只能在函数体 (body) 中使用之后的 binding 进行定义

(define (silly-triple x)
  (letrec ([y + x 2]
           [f (lambda(z) (+ z y w x))]  ; 在定义函数体中使用了之后的 binding w
           [w (+ x 7)])
  (f -9)))

在这里，w 定义在了使用 w 的函数 f 之后，但是却不会出现问题
这是因为只有我们在调用函数时 ((f -9))，racket 才会 evaluate 函数的 body 部分，而此时 w 已经 evaluate 为 x + 7 了
本质上来讲，racket 仍然是按照次序进行 evaluate 的，所以以下这个函数会出现问题

(define (bad-letric x)
  letric ([y z]     ; z 在之后才形成 binding，所以这里对 y 的 binding 是失败的
          [z 13])
  if (x y z)))

除了用 let 定义本地变量，还可以使用 define；不过只能在函数 body 的起始处进行定义
有人认为使用 define 时 good style
格式如下

(define (silly-mod2 x)
  (define (even? x) (if (zero? x) #t (odd? (- x 1))))
  (define (odd? x) (if (zero? x) #f (even? (- x 1)))))
  (if (even? x) 0 1))

Toplevel binding

Racket 中进行 binding 的方式与 letrec 等定义 local binding 的规则一样
按顺序进行 evaluate (保证了 early reference: 使用之前的 binding)
且函数直到调用时才对函数体进行 evaluate (保证了在定义函数体时可以进行 back reference: 使用之后的 binding)
而这也造成了 Racket 中不会出现 shadow 的现象：

(define (f x) (+ x 3))
(define f 17)   ; not okay, f already defined in this module

以上代码会出现错误：因为在一个环境里不可能出现两个 f

Delayed evaluation and Thunks

延时求值(delayed evaluation)，顾名思义就是不立即求值，而是在值不得不被使用的时候再进行求值。
在一次求值之后，后面的求值会直接使用第一次求值得到的值，而无需再次对原表达式进行求值。

我们利用 Racket 中函数直到调用时才对函数体进行 evaluate 的特性，将表达式用 lambda 包起来创建一个匿名函数(即为创建了一个 thunk)

e ; e will be evaluate immediately
(define x (lambda () e)) ; wrap e in a thunk
(x) ; e will be evaluate only when calling the function x(thunk)

只有在调用 thunk 的时候才会对 e 求值，这就实现了延时求值
然而，若一个函数中多次调用 thunk，就会出现许多重复计算，如下例子

(define my-mult x y-thunk
  (cond [(= x 0) 0]
        [(= x 1) (y-thunk)]
        [#t (+ (y-thunk) (my-mult (- x 1) y-thunk))]))

这个自定义的乘法函数用递归实现，每次递归一层都要对 y-thunk 进行一次调用
为了优化这个过程，在调用函数时我们利用 let 提前存储 y-thunk 的结果

(my-mult x (lambda () (+ 3 4))) ; ordinary call
(my-mult x (let ([z (+ 3 4)]) (lambda () z)))  ; store the result in z
(my-mult x (lambda () (let ([z (+ 3 4)]) z)))  ; the same as ordinary call

注意第三种写法与第一种其实是一样的，因为 let 中计算的过程仍然被包在了 thunk 中

Delay and force

依然是延时求值内容的扩展，采取一种更加可扩展化的操作来对 thunk 进行处理

(define (my-delay th)
  (mcons #f th))          ; create a promise
(define (my-force p)
  (if (mcar p) (mcdr p)
    (begin (set-mcar! p #t)
           (set-mcdr! p ((mcdr p))
           (mcdr p))))    ; extract/modify the value in promise

delay 操作是将 thunk 包装入一个可变 pair 中，这个可变 pair 被称为 promise
在包装的过程中，由于没有调用 thunk，所以表达式不会被计算
promise 的第一个元素初始化为 false，用来标记 thunk 有没有被调用过
而 force 操作则是替换原本朴素的 (thunk) 操作，保证 thunk 最多只被调用一次

Streams

streams
流 (streams) 是一个长度无限的值序列
流是以 thunk 的形式表示的，当调用该 thunk 时返回一个 pair <val, next-thunk>
val 为 stream 序列中当前元素的值，next-thunk 为接下来的元素序列形成的 stream

无限序列可由 cons 单元的嵌套结构表示，cons 单元的 car 与 cdr 分别是最终值与延时对象 (promise)，后一个 cons 单元通过强制求值后的 cdr 部分产生，这个过程可以不断重复，从而形成无限序列

using streams
powers-of-two 是 Racket 中自带的一个 stream，值为 \(\{2^1,2^2,2^3,2^4,2^5...\}\)
我们知道 stream 是一个 thunk，所以需要进行调用来求值

> (car (powers-of-two))
2
> (car ((cdr (power-of-two))))
4

这里定义一个计算函数，计算满足条件的元素在 stream 中的位置

(define (number-until stream tester)
  (letrec ([f (lambda (stream ans)
                (let ([pr (stream)]) 
                  (if (tester (car pr))
                      ans
                      (f (cdr pr) (+ ans 1)))))])
  (f stream 1)))
> (number-until powers-of-two (lambda (x) (= x 16)))
4

defining streams
下面定义一个全 \(1\) 序列

(define ones (lambda () (cons 1 (lambda () (cons 1 (lambda () (cons 1 ......))))))) ; infinite definitions
(define ones (lambda () (cons 1 ones)))

第一句是无限循环递归下去定义的，但我们可以发现，其实后面的部分就是 ones 本身
下面我们自己定义一个 powers-of-two

(define powers-of-two
  (letrec ([f (lambda (x) (cons x (lambda () (f (* x 2)))))]) (lambda () (f 2))))

同样也是利用的递归定义，有点难理解
f 是一个本地函数，其输入一个参数 x，输出一个 pair <x, thunk> 其中 thunk 包装的是以 \(2x\) 为参的 f 函数
那么整个 stream 就可以表示为 thunk(f(2))
我们要知道，对 stream 的定义，核心还是利用了延时求值 (delay evaluation) 的性质：
例如在对 ones 的定义中我们又用到了 ones，但由于其被 thunk 包装起来，所以并不会被立即 evaluate 从而保证了定义的完整性
如果这样定义：

(define ones (cons 1 ones))

这样就会出现无限循环的错误：因为没有 thunk 来延迟 ones 主体部分的 evaluation，程序在定义 ones 时使用了还未完成定义的 ones 本身，因此会无限循环下去

Memoization

记忆化(memoization) 的英文是一个生造词，即采用 memo 进行记忆化
贴一段 Racket 实现斐波那契数列递归记忆化代码实现

(define fibonacci
  (letrec ([memo null]
           [f (lambda (x)
                (let ([ans (assoc x memo)])
                  (if ans
                      (cdr ans)
                      (let ([new-ans (if (or (= x 1) (= x 2))
                                         1
                                         (+ (f (- x 1)) (f (- x 2))))])
                        (begin (set! memo (cons (cons x new-ans) memo)) new-ans)))))])
    f))

这里的 memo 是一个元素为 pair 的 list，<x, ans> 代表斐波那契数列中的第 \(x\) 个元素的值为 \(ans\)
其中 (assoc x list) 为内置函数，用来查询 list 中首个 pair 第一关键字为 \(x\) 的第二关键字
若不存在第一关键字为 \(x\) 的元素，则返回 #f
对 memo 的修改是采用 set! 进行的

Macros

Racket 中的宏 (Macros) 可以说是 Racket 语言的特色
简单的说, Macro 就是能让你在正式编译之前的，先对你的代码进行一次预编译，在这个时候把你代码中的一些符合条件的规则，全部替换成你需要的代码，或者说去生成你想要的代码
和 C++ 中的宏意义很相似
例如以下代码，用宏实现 delay 操作 (即将一个表达式封装为 promise)

(define-syntax my-delay
  syntax-rules ()
    [(my-delay e)
     (mcons #f (lambda () e))]))
> (my-delay (begin (print("hi") (* 3 4))))
; will not print hi

在以上例子中，对 begin 表达式进行 delay 操作并没有输出 hi
这说明宏进行的是词义替换，并不会对 e 进行求值
若采用以下的函数方式来实现 my-delay

(define (my-delay e)
  (mcons #f (lambda () e)))
> (my-delay (begin (print("hi") (* 3 4))))
hi

对同样的 begin 表达式进行 delay 操作，用函数实现的 my-delay 则会输出 hi
这是因为 Racket 在调用函数时一定会对所有的参数进行求值
这就是宏实现与函数实现的区别：宏实现进行纯粹的语义替换，而函数则会创建一个新的函数栈，且会对所有参数进行求值
语义替换是把双刃剑，在 C 系列语言中，不规范的使用宏会出现很多问题

(define-syntax db1
  (syntax-tules () 
     [(db1 x) (let ([y 1]) (* 2 x y))])) ; macros
(let ([y 7]) (db1 7)) ; use

db1 的作用是将某个数乘 \(2\)，那么 use 语句结果的期望肯定是 \(14\)
对以上的 use 语句进行 macros 词义替换，得到以下代码

(let ([y 7]) (let ([y 1]) (* 2 y y))) ; naive expansion for use

可以发现，经过词义替换后的函数输出的是 \(2\)，而不是期望中的 \(14\)
这就是为什么在 C 系列语言中，宏一般不定义本地变量，且变量名都故意设置的很奇怪
但在 Racket 中并不会出现这样的问题，也就是说，程序会输出正确的结果 \(14\)
这一特性被称为卫生宏 (hygiene macros)
具体表现在：

racket 将 macros 中本地变量名称改成其他的名称
在 macros 被定义处寻找对应的变量

posted @ 2022-06-21 17:25 四季夏目天下第一阅读(72) 评论(0) 编辑收藏举报

刷新页面返回顶部

此后如竟没有炬火我便是唯一的光

Coursera Programming Languages, Part B 华盛顿大学 Week 1

Racket definitions, functions and conditionals

Racket Lists

syntax and parenthetes

Dynamic typing

Cond

local bindings

Toplevel binding

Delayed evaluation and Thunks

Delay and force

Streams

Memoization

Macros

公告

此后如竟没有炬火 我便是唯一的光

Coursera Programming Languages, Part B 华盛顿大学 Week 1

Racket definitions, functions and conditionals

Racket Lists

syntax and parenthetes

Dynamic typing

Cond

local bindings

Toplevel binding

Delayed evaluation and Thunks

Delay and force

Streams

Memoization

Macros

公告

此后如竟没有炬火我便是唯一的光