金海教授寄语——《分布式系统》结课后的一些感想

关于研究生

这门课叫做“分布式系统”,由金海教授执教。从第一节课的旁征博引地做课程介绍,我就知道,这位老师名副其实不可置疑。最后这节课,老师在念每一个人的名字。每一声“到”,每一次举手都是在说,“金老师我来上课啦”。

1.JPG

据说,金老师在学校讲一学期的课的薪资还比不上在外面做一场报告报酬的一半。也可能是因为国内的学费尚未让同学们认识到听课的重要性,不比国外一学分几百美元的代价。金老师在跟我们强调承压能力的重要性,尤其是进入社会后更加需要。他说,读研是一种修炼。他说,这门课结束后,非我实验室弟子可能很少有机会能见到我了,想跟大家说些话。

  1. 承压能力。如果科研课题出现了困难或什么纠纷,一定要去和年长的老师去商量。他们或许更加宽容。“我跟我实验室的同学说,我是你们的最后一道防线,真有什么困难就来找我,我一定想办法解决。”
  2. 先做人后做事。心智和处理社会复杂问题的能力。
  3. 综合素质。只讲智商不是在这个社会上生存的要求。

这让我想到了刚入学的时候我自己的导师和我聊天时候跟我讲的话。他说,不要把研一上成大五的状态。我知道两年时间,这个研究方向最多只能入门,所以不求有多深入研究,但是要培养出来的是追求前沿知识的学习能力以及合作能力

各位导师的理念似乎有异曲同工之处。

学期杂谈

时间很快,随着每一门课程的结课,一个学期马上就要结束了。前几天,有同学找到了满意的实习,虽说有时也有抱怨,但大家还是很喜欢这个专业。《工程伦理》执教老师说过,我相信以后计算机这个行业还会有崛起的趋势。

对我个人来说,我喜欢手指在键盘上劈里啪啦飞舞敲码,也喜欢晒着太阳读阕词。享受在实验室bug一解解一天,也热衷于骑着共享单车去东湖绿道或者校园里看来往路人甚至听些鸟鸣。真的,程序员也没那么枯燥。除非是工作后老板给的deadline前完不成任务,那是真的让人捉急。因为我也实习过,正是因为了解了这种感受,才敢说自己不怕。每次看自己写出来的成果跟看自己孩子一样,虽然连对象都没有。

记得开学前,我问师兄,在学校这两年,我能怎么做才能学到在外面学不到的知识。学长给的话也很大很宽泛。我想大概就跟读书一样,或许一段时间之后,你不记得书里的人名,故事,伦理,但是几年后再读你会发现,书里的纲常道理都已经在你的骨子里了。

这个学期,我读论文完成导师组会任务,关注社会工作的一些内容,在练包子老师教的jazz舞步,甚至还老去图书馆看杂书,《罪与罚》、《大秦帝国》、《李清照词传》,有一本叫做《失明症漫记》的书,老是不在架上,上次我卡点在上一个人的还书时间那天去,发现又被另一个人借走了!!气得我!!但是也实在没抽出时间去学校外的书店去搜罗。

马上元旦了,是不是该给自己定一个小目标呢?

课程笔记

最后这节课的笔记也写一下吧。

分布式数据管理技术研究现状:浮现出的新型数据库

  1. 图数据管理系统
  2. 流数据管理
  3. 时空数据库
  4. 内存数据库

从单机数据库到分布式计算框架再到NewSql的融合回归,是数据库发展的必然趋势。

流处理是一种对连续地流数据进行即时计算和分析地大数据处理技术。

为什么需要流处理?

  1. 数据无界,无法完整存储后进行处理
  2. 数据具有高时效性

流处理:注重对时间上最近产生的元组数据的计算和处理。

  1. 高吞吐:天猫双十一实时流处理平台每秒响应上千万次请求
  2. 低延时:实时路况分析
  3. 可扩展:不同流应用地吞吐需求不同
  4. 高可用:流处理应用一旦部署,需要长时间持续无停机处理。

而批处理的数据源是可被反复处理的大量有界的历史数据,追求高并行、高吞吐,注重对全体数据的计算和处理。

分布式流处理:利用分布式集群的高并行计算能力,将复杂的流应用逻辑拆分成若干简单的处理逻辑。

微批处理:

  1. 按固定时间或者元组数目将流数据划分为连续的若干批量数据,对每个批次依次进行处理。减少了传输成本降低了容错难度;同时增加了处理延时,无法处理批次间的数据聚合。
  2. 每个上游实例产生的元组被划分为不同分组并调度到下游的不同实例中实现高数据并行。
  3. 以Twitter单词计数为例。

分布式流处理系统基本架构

  1. 数据流方法:映射数据流图,数据驱动单元执行,不需CPU参与
  2. 控制流方法:CPU决定运行时间

流处理调度优化:

  1. 针对网络开销和延时
  2. 针对负载均衡问题:对不同操作,按计算负载的比例分配给个操作的实例个数。

好了,下课铃响了,大家去吃饭吧。最后祝大家新年快乐!

posted @ 2020-12-28 13:23  似漆  阅读(225)  评论(0编辑  收藏  举报