因素空间, 人工智能的新数学理论
(2016年香山论坛报告摘要)
汪 培 庄
(辽宁工程技术大学智能工程与数学研究院)
大数据浪潮预示着人类即将经历一场历史上迄今为止最伟大的科学技术革命。它不是后信息革命而是信息革命中的一个的新阶段, 其最根本的特征是Internet 与Intelligence 的二元结合, 简记为 I & I 。其中,网络是信息革命的翅膀, 智能是信息革命的灵魂。革命的核心问题仍然是智能,人工智能是这场革命的主战场!
中国学者,尤其是人工智能学者站在国际争夺的时代制高点面前,把握着历史为在我国实现中国梦而特别赐予的这一战斗良机,要以引领大数据时代浪潮为己任,责无旁贷地接受人民和历史的重托,团结奋战,做出颠覆性的突破。
颠覆性的突破来自两个方面:一是出人意料的实践创新,一是出人意料的理论创新。
网络革命是悄然而至的,谁也说不清楚它始于何时、起于何处。它是由一些细微的实践创新所引起、由意外的商业创新所驱动、由名不见经传的年轻队伍所发散、与民生需要紧密结合而出的新浪潮,是出入意料的实践创新!我们国家要在这方面继续冲刺,争取有更多更年轻的领跑人。要把这种优势从商业资讯迅速扩展到技术材料等实践创新中去。
网络革命是悄然而至的,但它却不会悄然而去。历史上任何一次重大的科学技术革命都要有新的科学理论来陪伴。现在,在人工智能不同流派三分天下,此乃不成熟的标志;现在,更没有公认的人工智能数学,按照马克思的标准,没有用数学表达的学科不是成熟的科学,所以,从上世纪四十年代算起,到现在还没有形成真正的人工智能理论。值得庆幸的是,进入21世纪以来,中国学者正在努力探索和创立统一的人工智能理论, 这将带来出人意料的理论创新。
在每次新的科学理论背后,都必须有新的数学理论作支撑。为配合建立新的人工智能理论,必须建立相应的智能数学。机器证明定理用的数学方法是布尔代数及其所导出的归结原理,神经网络学习用的是线性(非线性)变换的逆向收索,前者是在已知的一组规则之间去找规则的基(公理),或由基规则去判断一个规则是否能由基生成;后者是运用规则分类,或由分类寻找规则。它们都涉及规则,但应用类型不同,一个是研究规则与规则之间的关系,一个是研究规则与类别之间的关系。它们应用的目标也不同, 一个用在规则求证,一个用在规则分类。 如果研究者过于标榜自己所用的数学方法而排斥异己,就会派别分裂。所以,人工智能的不统一,部分是来自数学方法的不统一。要有统一的人工智能理论,必须有统一的智能数学理论。
从历史顺序来回顾数学对智能描述所作的贡献:首先是经典数理逻辑即布尔代数。接着是集合论,论域中的点u表示变元, 集A表示概念的外延, 语句"uÎP"就表示谓词P(u),集合运算与谓词演算同构。概率论与数理统计也是人工智能所应用的重要方法,概率论是广义的因果论,概率逻辑与经典逻辑的区别反映了理想与现实之间的差异。控制、运筹、优化等数学理论对决策性的智能描述有重要贡献;模糊逻辑是最重要的贡献者,它把概念的外延从经典集合拓展为模糊集合,使数学描述进入了人们的日常生活,建立了定性与定量相互转化的桥梁。尽管数学对人工智能有这样广泛的应用,但是,上述数学分支都是以自己的天然特色自发地进行智能描述,它们从未自觉地宣布过自己是智能数学的一部分。当务之急,是要整合所有对人工智能有兴趣的学者,明确公开地把人工智能作为自己的服务对象,建立统一的智能数学。
1982是值得回味的一年:有三个数学学派同时打出了智能数学的旗号,明确公开地把知识和智能当作数学研究的对象。它们分别是:1、德国数学家 Wille 提出的形式概念分析(Normal Concept Analysis); 2. 波兰数学家 Pawlak提出的粗糙集 (Rough Sets)' 3. 本人汪培庄提出的因素空间(Factor Spaces)。Wille 利用内涵与外延之间的对合性首次给出了概念的数学定义, 建立了从形式背景求基本概念半格的理论,为人工智能建立了概念生成的算法,意义很大。可惜的是,它强调的是属性值而非属性名,它的算法陷入了N-hard 困局。Pawlak 强调了属性名而非属性值, 把形式背景表的列数大大减少, 摆脱了这一困境, 他所发展的新表,信息系统,成为关系数据库的样板,粗糙集为关系数据库提供数学基础。但遗憾的是,他虽用了属性名,但却不知道属性名的真正意义是什么,他没深究属性名的性质和运算,致使他的理论基础不牢固,属性约简的算法陷于了N-hard 的困境。我在1982年提出因素空间是想为事物认知和知识描述建立普适性的框架,用因素空间探索不确定性的根源,在随机性和模糊性这两种不确定性之间找到了集冪对偶关系,提出了模糊落影理论:论域U上的任一模糊现象都可化为冪P(U)上的随机现象,U上模糊集的隶属函数是P(U)中随机集概率分布的落影。对于主观性测度理论,我证明了四种非可加测度与冪上概率分布的存在唯一性定理,在实用上提出了集值统计方法。基于这些理论成果,在钱学森教授的指导下,于1988年5月在北师大指导研究生研制出国际第二台模糊推理机,与日本的首台"模糊计算机"相比,推理速度从每秒一千万次提高到一千五百万次,体积不到日本的十分之一。钱学森教授指示说:要进一步研究智能的数学理论。在他的指示下,于上世纪九十年代,我和学生李洪兴共同出版了《知识表示的数学理论》和《模糊系统理论和模糊计算机》两本著作。 用因素空间给出了知识表示的框架,探讨了智能计算机的数学部件。 2012年,因素空间开始与数据科学挂钩。我们发现:关系数据库就是因素空间的样本实现,因素是粗糙集中的属性名的提升,因素空间恰好为粗糙集提供了母体理论,NCA和RS中的理论和方法都可用因素空间更加简明和快捷地加以阐述和解决,N-hard的难点也都能克服。
人工智能理论之所以不统一,是因为各种理论的着眼点没有放到问题的根部。非根部的东西都带有是局部性,彼此不统一,放到根部去看,就都统一了。什么是人工智能的根部?人的认识是对客观事物的反映,客观事物的描述都有一个根,就是因素。
什么是因素?因素是事物的质根。生物学中的基因是生命属性的质根,因素就是科学的基因。基因最早的英文名称是Mendelian factor,Factor是英文中的因素,说明基因是一种特殊的因素,而因素则是基因的自然推广。因素是事物和认识的成因。信息革命需要将谱写生命的密码扩大成为一般信息的密码,因素是信息表示所不可或缺的东西。基因是生命科学的范词,因素则是信息科学的范词。
因素空间把因素从日常解释提升为属性映射,它把事物映射为属性,形成以因素为轴的空间,叫做相空间,因素又成为参数在一个布尔代数中缩放,因素的合成运算将相空间的维度放大,因素的分解运算则将相空间的维度缩小. 当因素取定量相的时候,因素空间就是一个变维的笛卡尔坐标空间,当因素取定性相的时候,因素空间就是概念描述的框架。因素空间将智能活动归结为概念生成、规则归纳和逻辑推理这三个基本环节。因素空间的核心概念是背景关系,它决定了这三个基本环节的过程、形态和结局。因素空间给出了三个基本算法,快捷地解决这三个环节所要完成的任务。基于这套基本算法,一切高级智能活动如学习、分类、识别、控制、预测、评价、决策等都可以借着这套算法快捷地实现。如是形成认知包。一个认知包代表一个知识单元,它把论域定锁定为一个较大的知识粒团,给定求知任务和相关的一组因素。这个认知包的任务就是运用基本算法提取新概念,理清概念之间的联系,进行规则提取和推理,在此基础上进行指定的高级智能活动。工作成果集中在答应系统里,客户通过询问来获得解答。由于背景关系决定一切, 认知包的目标是要获得背景关系的完整分布。数据不单是运算的工具而更是培育的对象。根据背景的途性,背景关系可以由它的顶点来决定,这些顶点的集合叫做背景基。因素空间给出的第四个基本算法是背景基的提取,可以快捷地实现数据压缩,面临大数据流,数据包可以从容地吞吐数据,保持非大数据的背景基。背景基的培育是因素表现数据的叠加, 因素表现数据可以脱离对象,没有隐私的牵挂, 同表头的因素表现数据不受时间和地点的限制, 可以并行计算, 这样,因素数据库就为大数据的智能化处理提供了新的思路。按照因素藤的理论,认知包可以自下而上地连接成认知网,跨领域的认知网可以形成人机认知体。 它在网上吞吐数据,从数据中提取知识,积累知识,智能化地实时监控管理所属系统,形成因素库的独特数据生态。人机认知系统的建立将主导着国际争夺的态势,这是一种出人意料的理论创新。
因素空间理论的潜在优势是:由于因素是事物描述和思维过程的最深层次的东西,它将为新的人工智能理论提供统一明快的数学语言和描述工具。