0509·刘未鹏的TopLanguage聚会[一]
北京。五道口。
星期六。己丑年四月十五。气温适宜外出活动。
@pongba 前不久离开了南大,受邀微软来到北京。继上月他与李笑来会师(江湖曾流传一句话:自从读了李笑来, 我就不写人生感悟了; 自从读了刘未鹏, 我就不写学习方法和思维方法)后,他又召集了TopLanguage小组聚会。
本次与会技术人7个(按出场顺序排列):
- @pongba Blog:http://mindhacks.cn 微软亚洲研究院
- 王乐珩 Blog:http://joyfire.spaces.live.com 中科院计算所
- @googollee Blog:http://googollee.blog.163.com/ Nthcode
- @zhengyun Blog:http://blog.csdn.net/zhengyun_ustc/ 玩聚网
- @tinyfool Blog: http://www.tinydust.net/dev 银杏泰克
- 张沈鹏 Blog:http://zsp.javaeye.com/ 豆瓣
- 孙勇 http://blogs.sun.com/yongsun/ Sun
旁的不叙。咱们表一表与会的闲谈话题。众所周知,人(即节点)一多,每个人的交互(即连接)也多,很难整理出一个可阅读的话题脉络。以下文字基本上来自每个人的口头表达,我尽量加工组合,先优选两个话题抛砖引玉。
1、人工智能和进化
可能是 TL 上 Self-replicating_machine 话题的线下延续。
当来自于生物信息课题组的 joyfire 介绍研究方向是“基因组信息结构的复杂性及遗传语言的根本规律”时,大家便开始边跑题边激荡脑力。
DNA就是字符串
首先感慨DNA之设计精良,假如上帝是一个程序员的话,视每个DNA为一个四个元素的字符串数组,用区区几十MB的代码量,便控制了人的一切生长和行为,堪称伟大的程序员。
附注:单链DNA可以看作是由符合A、G、C、T组成的字符串。我们简化为就是字符串搜索和匹配,那么可以近似认为基因测序或测定就像搜索引擎一样是对字符串的操作。相应的应用就是SARS基因序列的测定,以及测定三聚氰胺的质谱仪(这又延伸出另外一个话题:破坏性创新,按下不表)。
围绕着如此精良的编程功底是如何形成的,于是话题过度到了“进化”。
模拟进化
大家执著于讨论:
存不存在可能,模拟一个算法,构建一个环境,把一段代表生命(仅仅是代表草履虫一样的早期生命体)的代码放进去,通过模拟基因变异、适者生存的达尔文法则,通过高速并发计算,最终得到进化到一定程度的高级生命体?
zsp 认为算法有可能跑,但由于模拟的维度是人设计的,必定远远少于真实的世界,由于量变才能引起质变,过少的变异维度和环境维度难以,所以核心问题还在于“特征”如何抽取。
一般来说,人类具有抽象能力,能够通过各种方法论找到一个事物或事务的“特征”,并把“特征”告诉机器,机器计算能力强,执行即可。在这个层面上,自我复制的机器人实际上并不难造,毕竟“特征”都是可以固化的。
但如果机器无法具有抽象能力,无法自动找到让进化延续下去的外部或内部“特征”,那么“进化”又能到什么阶段呢?
进化结果的评价
当然,这里的“进化”终极结果并不是出现像人类这样的智能生物,只要是符合逻辑的、可延续下去的生物即可。因为你在某一个时间点并不能用好还是坏来评价某一个演进中的生命体,比如恐龙,某个时间段你可能认为它们是最优秀的生命体,但不久后它们全部被随机产生的外部环境变化毁灭了,那么它是好的还是坏的“进化”?比如人类,现在看我们是最优秀的智能生物,但假如不久后我们通过战争自我毁灭,或者被地外生物毁灭,那么我们这个演进路线是对还是错?
所以,这个程序主要考察生命体是否能不断进化,最终产生智能。
当然,大家会谈到《孢子》游戏。它的进化逻辑有点简单,但仍然是一个非常优秀的、融合了即时战略和进化的游戏。
大脑:连接、节点、地址
@tinyfool 提到,以前人们都认为大脑是按功能区划分的,彼此不可替代。但后来通过试验发现,大脑的功能区可以转移,可以“重建”。用大白话说,就是摧毁了左脑某些组织后,本以为相应所负载的功能(如运动、语言功能)会丧失,但随着时间推移,大脑能迅速在右脑区域重新建造这些功能。
@tinyfool 提到,网络最开始也是一个看上去很呆滞的方案,最开始只是每一个主机提供静态网页,后来出现的HTTP协议也是看上去不美,但神奇的事情发生了。由于只定了三个元素:
- 节点
- 连接
- 地址
最开始也平淡无奇,但随着进化,每个节点自己慢慢地拥有了自己的智能,如动态网页等等,通过地址找到节点,节点互相之间建立了连接,节点有智能,于是互联网便无所不能,本身就是一个拥有海量信息的、具有足够智能的生物体。
这和大脑的机制,似乎有一些有趣的共性。
先验知识或本能
大脑的功能重建,以及程序自进化算法,joyfire 都认为,存在一个大问题,就是“先验知识”。
人或动物拥有很多先验知识,这些知识是在一代一代进化中固化在基因中的。比如烫了就缩手,比如本能不喜欢苦的味道。
程序如何模拟这些东西呢?
或者说,大脑重建功能区时,如何恢复这些“先验知识”,假如这些东西是存储在某一个固定区域的话。
一方认为,先验知识可以模拟,比如存在多个变异,每个变异者的基因中就携带了该变异,如果进化过程中其他变异者毁灭,那么生存下来的变异者就自然携带这个变异传递下去,这就解释了“先验知识”从哪里来的问题。当然,这只是一个理想状态的描述。因为它没有涉及哪些变异会固化到基因中。比如一个天生少了一条腿的小狗,在繁衍时,也不会把这个变异传递下去,也就是某些变异是不会遗传的,那么谁来做出判断要不要遗传?
对于机器来说,“先验知识”有点儿像“特征”一样难以琢磨,原因如前所述,机器很难判断哪些是应该固化的,用“进化论”还是解释不了这个问题。
这样,我们又绕回到“特征”抽取问题。
2、破坏性创新
前述 joyfire 的测定三聚氰胺的质谱仪,延伸出另外一个话题:大学教育、破坏性创新和国内环境。
大家应该经常看到这样一种现象,我们的研究机构或者公司,本来凭着中国人的聪明才智,在某一个研究领域几乎已经逼近或超过国际一流水平,此时大家心中暗喜,但随着国外某一个实验组或小公司的一个破坏性创新,导致以前的科研成果又被摧毁被甩出老远,人家继续领跑,当然是换了一帮人领的。
问题就在这里。
照理说,破坏性创新(后简称“破创”)基本上是此起彼伏,在全球范围内。
但,事实上中国大陆很难出现破坏性创新。
举个最简单的例子,当我们的门户模式称雄时,SNS横空出世。当我们的名人博客每天吸引了数十亿点击时,Twitter横空出世。
joyfire 说,在生物信息领域,当我们迅速逼近、赶超他们时,突然他们出现跨越式成长,“跳”了起来,而我们不会“跳”。
一方归结为,中国不是不投钱,但投钱投的区域总是很窄,无法产生链条联动效应,总是受困于上一步或下一步。
假设说,国家重点发展的基因测序需要几微米的试管,我们生产不了,只能买国外的,那么假定这是精密仪器问题。
okay,精密仪器领域,国内也有地方大力鼓励。
但同样的工艺和生产线,就是无法达到国外的水平,比如前面说的试管,要求内径不能忽粗忽细,误差不得大于某某数值,但国内生产就是无法达标。于是,没有下家买单,下家还得去国外订购,订购不到,下家的科研任务就无法做。于是,精密仪器厂家纷纷倒闭。于是,恶性循环。这有点像我们的大飞机这么多年的历史。
修改历史:
0509 23:00
@tinyfool 补充道:“
大概意思是这样的,就是说以前我们认为大脑各个功能区域,功能泾渭分明,但是现在很多实验证明,如果某个功能区域被切割下去,大脑的其他区域就有可能接管这些功能(虽然按照过去的认识,他们是完全没有关系的。另外物理上,也需要一些刺激以及大脑的有足够的活性和细胞再生能力)。这就很让人振奋,就是说大脑的所有功能区域都是相等的,可以动态的部署。
一般认为智能来自有那些神经元细胞之间的连接,比如听懂语言的能力,就是一系列神经元的连接实现的。如果这些细胞和连接都被切除了,但是如果外界声音对大脑的刺激没有消失,原来跟这个能力完全没有关系的神经元可能会被激发,产生联系,然后对这些刺激进行处理,最终实现听懂语言能力的恢复。”
0510 0:04
joyfire 补充道:“
当时说的时候,大概是这个意思,人体是如此复杂高效的一个复杂系统,然而全部的设计蓝图,或者源代码,其实就全部存储在很少的DNA字符串里。(而且
DNA里面其实只有5%被翻译,其余的可能都是进化痕迹,都可以看作被注释掉的历史代码)上帝作为程序员,效率真的很高。
再往前,说这句话的意思,是为了说明,我们现有的软硬件结构,离自然界的上限还很远呢。无论是硬件存储和检索能力,还是软件的编码效率。
这句话之后,大家议论说,DNA是一种动态语言,可以反过来被它编译出的exe——蛋白质影响。其中的保守部分,比如每个人都只有一个鼻子,两个鼻孔,
容错性很高,不会随便就变异掉。但是另外一方面,代码又有很强的灵活性:每个人又有大量的不同点,以利于多样性和进化。”
参考资源:
0424 笑来、pongba会师:
1:素描
“
我 胖兔子粥粥
”
0509 TL聚会:
1:TL聚会,遭遇若干大牛:
“神侃内容:从互联网广告的商业模式开始,到电子商务的信誉体系和物流体系;到语义网络技术、信源挖掘推荐和评价;到人工智能、基因进化和大脑神经机制;到豆瓣应完善的若干features需求;到北京美食和若干"驻京办"位置;到房价和经济危机;到国有垄断行业和IT创业;最后到各自工作中正在面对的算法和工程难题。”
“这就又回到昨天TL聚会讨论的内容,智能的本质,到底是“超大存储+超快检索”(换句话说,足够多的先验知识),还是另一种计算模型呢?”