因素空间发展评述
刘海涛1,包研科1,郭嗣琮1,何华灿2, 何平3
(1. 辽宁工程技术大学 智能工程与数学研究院, 辽宁 阜新 123000;
2. 西北工业大学 计算机学院,陕西 西安 710072;
3. 辽宁警官学院 信息系,辽宁 大连 116036)
——2016年3月
摘 要:为了适应信息革命和大数据时代的需要,模糊数学要更多地切入智能数据的领域. 在这方面,我国早期学者汪培庄教授提出了因素空间的数学理论,从服务于模糊数学的研究开始,进而转向认知描述,建立了知识表示的数学描述理论, 曾有突出的贡献. 近年来又提出因素库,为大数据的分析和处理奠定必要的数学基础. 因素是基因从生命向一般事物、从生物学向信息科学拓展的代号,是信息的表达之因. 因素空间是信息描述的普适框架,能简明地表达智能问题并提供快捷的算法,因素库以认知包为单元,在网上吞吐数据,在运用数据的过程中培植数据,各自培养出以背景关系为核心的知识基, 它决定包内的一切推理句;它对大数据吐故纳新并始终保持自己的低维度;它不涉及隐私又与同类知识包并行合作;它以上下关系与异类包进行连接,形成人机认知体,引领大数据的时代潮流。本文将介绍因素空间的简要历史,说清基本思想,着重介绍因素库研究的基本进展和发展方向。
关键词:人工智能; 因素空间; 因素数据库; 因果分析.
中图分类号:C 931.1 文献标识码:A
Review on the development of factor space
liu Hai-tao1, Bao Yanke1,Guo Si-zong1,He Hua-can2, He Ping3
(1. Institute of Intelligence Engineering and Mathematics, Liaoning Technical University, Fuxin 123000, China;
2. School of Computer Science, Northwesten Polytechnical University, Xi'an 710072, China;
3. Department of Information, Liaoning Police Academy, Dalian 116036, China
Abstract Facing the coming of big data tide in information revolution, we aught to pay more attention to intelligence data from fuzzy sets. An early scholar, Prof. Wang P Z, has initialed factor space theory to serve the researches of fuzzy sets in the beginging. Then he extended to cognitive description and beult a mathematical theory for knowledge representation. Contributions were excellent. In order to establish the mathematical basis of big data, recently, he initials the Factorial Data in factor space. Factor is the generalized name of gene from life to thing and from biology to information science, which is the key of information representation. Factor space is a general framework of information description. It can state cognitive problems simple and clearly and can provide fast algorithms. Factorial data consists of elements, called recognitive bags. Each one swallows and spits data form internet, and cultivates data during it doing works. The cultivated data forms a base B of background relation R. We can determins all inference knowledge within the bag by means of B; we can renewally maintain B at a low dimension level during swallows big data; we can get B avoid to injure privacy and parallelly treat same kind of bags coordinately. Bages can be connected according to the up-down relations, and form the man-machine cognitive system, which will guide the trend of the time of big data. This paper will introduce the brief history, basic thought and development directions of factor space.
Key words: Intelligent artificial; factor space; factorial databases; causality analysis.
-
引言
1982年,在国际同时出现了三个直接以认知为描述对象的数学理论:Wille提出的形式概念分析(Formal concept analysis) [1], Pawlak提出的粗糙集(Rough sets) [2]和汪培庄提出的因素空间(Factor space) [3]. 据汪老师回忆说:"数理逻辑是研究推理的数学,但它是出于数学自身的逻辑特性去进行推理,而不是为了探寻认知的推理而去研究推理. 逻辑推理是在已有的概念之间去寻找蕴涵关系,却不能产生新的概念. 所以,尽管数理逻辑对人工智能十分重要,但没人称它为智能数学;概率统计是富有预测性和归纳性的数学,但它是基于广义因果律去作预测和归纳,而不是为了探寻认知的预测和归纳性而去研究预测和归纳,所以,尽管概率统计在人工智能中很有用,但没有人称它为智能数学. 集合论用数学表现概念的外延,使数学从数量关系与空间形式的描述学科拓展成为各们定量学科精准描述的形式符号系统,模糊集合更把概念描述的范围扩大到生活认知和定性学科的范围,模糊数学成了人工智能的重要工具. 但它没有把内涵与外延的关系挑明,没有明确声明把认知作为研究对象,也没人称它为智能数学. Wille用内涵与外延的对合性来定义概念,明确地把概念作为数学研究的对象,这就开辟了智能数学的先河. 粗糙集所讨论的也都是概念和知识,所以,同年出现了三个智能数学的分支. 这是数学上值得关注的一件事情. Wille的文章很严谨,可惜的是,由于他所看重的是属性值而非属性名,致使他的形式背景列表困难,从表中提取概念格(应是'基本概念半格')至今还没有突破N-hard的陷阱. Pawlak是数据知识发现(KDD)的发起人之一,他看重的不是属性值而是属性名,这一变化使形式背景表的列数大大减少而变成了信息系统表,成为关系数据库的模板,粗糙集为关系数据库奠定了理论基础,贡献很大. 但理论尚欠慎密,对知识的定义就违反了Wille所提的对合原则. 内外夹逼的思想发挥得很好,但应用上还有差距. 从本质上说,Pawlak学派虽然启用了属性名,但却没有真正意识到属性名的重要意义. 属性名就是因素. 因素是质根,是基因从生命向一般事物、从生物学向信息科学拓展的代号,是信息革命所驱动出来的范词,因素就是信息的表达之因. 粗糙集没有对此作出必要的强调和刻画,没有定义属性名之间的运算,而在从区分矩阵向区分函数转换时又必须用到这些运算,有关章节从数学上就读不过去,在属性约简上的应用算法也很繁杂,至今还停留在N-hard的水平,有的应用文章要转向整值规划去求解, 这些都是我们应当帮助解决的问题,否则无法引领大数据的潮流. 在1982年的时候,我们不知道有形式概念和粗糙集的出现,我们对数据科学的发展反应迟钝,只是想把笛卡尔坐标系推广到认知空间上,并用因素空间去探索不确定性的真谛. 当时已经注意到了国外有个因子分析, 因为与主成分分析差不多,就没有管它。最近查了一下,美国心理测量学和心理物理学开拓者Louis Leon Thurstone在1931年首次引入'factor analysis'这一术语[4]. 心理测量的因子就是因素,他从因素之间的相互影响来分析心理测量中的问题,尽管他并没有把心理测量提到数学描述认知的高度,所用的数学方法也是四则运算,后来才用了一些现成的数理统计方法,尽管如此,他却比我们早半个世纪就举起了因素的大旗,成为我们的先驱. 如今,因素空间要继承他所举起的这面旗帜,与因子分析相辅相成地向前发展。当初,因素空间是为模糊数学打基础而提出来的,现在,因素空间要转向数据科学,要把Wille的背景关系发扬光大,要帮助粗糙集理论深化,合作共进, 特别要向蔡文教授学习,他开创的可拓学是描述开拓性思维的包括数学在内的交叉学科[5],很有成效,可以带动因素空间的发展". 我们大段引用汪老师的话,是为了点清我们这个评述的方向.
因素空间的发展分两个阶段. 它最早是用于探索不确定性的原因. 在知识表示,模糊控制、模糊推理机的研制等方面形成了模糊落影理论及其应用体系,曾为我国在模糊信息处理上赢得过荣光,这都已经成为过去;智能计算机从功能上模拟人脑遇到了难于突破的瓶颈,于上世纪九十年代出现低潮, 正值网络革命悄然而至,全球的计算机都可以联网,什么叫做一台计算机?很多概念都需要重新定义,中心处理器的地位被边缘化,智能软件已成为信息革命的主战场. 因素空间要在数据科学中发挥其核心作用,这就是因素空间发展的第二阶段. 综述本着厚今薄古的原则,对第一阶段点到为止,不加细说, 重点是考察因素空间在数据科学中的应用价值和前景. 近年的发展表明,因素空间为信息描述提供了普适性的坐标架,可以简明地叙述信息与智能科学的一些基本问题,理论清晰,算法简单,两个N-hard问题在因素空间中都化为复杂度不高于O(m2n)的算法,显示出新的生命力.
写这个评述的主要目的,是为了使读者更好地掌握因素空间的基本思想,消化一些理解难点. 因此,对于一些疑难问题从思想背景上详细叙述,一般公式和算法则从略. 除了引用已有的工作外,个别的地方有我们自己的发挥. 不妥之处,请读者批评. 所列的文献,除了配合叙述之外,只列因素空间的直接文章,但也包括少量在思想上有牵连的文章. 列出文献只是想给读者对这个领域提供一个参阅的途径,恕不一一交代.
因素神经网络是刘增良教授[6]所开创的一支,开拓了知识神经网络及其并行实现,为军事信息化作了重要贡献. 他们有专门的发展,大多数文章都来不及列入.
本文的结构是:第二节介绍因素空间的思想背景,说明因素空间是概率论和模糊数学发展所必然产生的更深层次的数学概念;第三节介绍因素空间的基本理论,把因素从日常解释提升为属性映射,它把事物映射为属性,形成相空间,相空间就是因素空间,而因素又被视为参数在一个布尔代数中缩放,因素的合成运算将相空间的维度放大,因素的分解运算则将相空间的维度缩小.,当因素取定量相的时候,因素空间就是一个变维的笛卡尔坐标空间, 当因素取定性相的时候,因素空间就是概念描述的框架. 因素空间的核心概念是背景关系,它决定了概念生成,决定了因素之间的全部推理知识,基于概念和推理的一切高级智能活动能由背景关系简捷地刻画出来;第四节介绍因素库,因素库是人机构建的知识大树,叫做人机认知体,其基本单元是认知包,认知包由一个主表及若干衍生表所组成,每张表就是某个因素空间的一组样本点. 因素库是以因素空间为母体的数据理论. 其特点是把数据作为培植对象,所有同表头样本在去掉对象列以后的叠加就是背景关系,背景关系具有凸性,可以用背景基来取代,这样,背景基的形成和稳定就是因素库的数据生态,它具有大数据处理的优越特性. 第五节介绍下一步的主要研究方向;最后是简短的结论.
2. 因素空间的思想背景
2.1 探讨随机性:基本空间是一个因素空间
上世纪七十年代,汪老师在讲概率论课时,曾向学生强调:概率场 (W,A, P)中最引人深思的应该是基本空间W. 这是柯尔莫哥洛夫用以处理随机性的一个创举。他把随机变量定义为从W到实数域R的可测映射,通过这种映射,(W,A)上的概率测度便被诱导到直线R上,形成各种分布函数和分布密度,古典概率便由此进化成为现代概率论. 这里的关键是把随机变量定义成必然性的映射. 在他以前,有谁曾经想到过要把降雨量、命中率等这样一些随机性的东西定义成为映射呢?映射是必然性在数学中的化身,对于定义域中的任一对象,在映射的值域中必有且仅有一个像与之对应. 如果把一枚硬币在一次投掷中出现正面的次数x看成是定义在基本空间W上的一个必然性映射的话,则此空间就必须满足这样一个要求:对于W中的每一个点w, 它所对应的值x(w)必须是唯一确定的:要么是1(正面),要么是0(反面)!怎样才能做到这一点呢?这就要找出那些影响硬币面向的因素,如硬币性状,手的动作,桌面条件、环境影响等等,它们都会对结果发生影响. 我们可以作这样一个决定论性的假设:当所有因素的状态都固定以后,所得的结果便会唯一确定. 如其不然,就必有其它某些具影响力的因素尚未被考虑到,把这些被遗漏的因素统统都考虑进去,假设便应告成立。每个因素有一个状态变化的维度,所有这些因素就张成一个高维空间,这正是我们所说的因素空间,它就是柯尔莫哥洛夫的基本空间W. 基本空间是因果律起完全作用的空间,是偶然现象必然化的描述空间。充分的条件导致必然的结果;不充分的条件是随机性出现的原因。基本空间中如果存在着难以观测和控制的因素,则人对W的辨别和控制范围便从点w蜕化成为团粒CÍW. 在进行一种试验时,我们所能把控的范围C叫做条件. 我们只知w在C中但却不知在其中的何处,当C的范围跨越了正反两面的边界时,就出现了随机性[7].
不充分的条件也是条件,它不能决定结果但却能制约结果的发生频率,体现这种内在必然性联系的就是概率,概率是广义的因果律. 概率论是一种广义的因果论. 这就注定了概率统计会在人工智能中占有重要的地位. 我们现在能对概率论有这样一种较为深刻的认识,要归功于柯尔莫哥洛夫提出基本空间,他应当是因素空间的最早构思人.
用因素空间来构造基本空间,可以实现决定性向随机性的进逼. 概率论不仅要研究概率的逻辑规律,更应实现随机性向确定性的转化. 虽然,大数定律和贝叶斯概率都体现这种转化,但还有很大的发展空间. 汪培庄教授所提的构架是:将基本空间的因素分为两个部分,可观察、可控的因素算一部分,这部分因素所导引的变量是非随机变量,余下的因素算是第二部分,统归为一个余因素[3]. 它所导引的变量是随机性的。从中挑选出少数几个特别调皮的因素作为精细处理的对象,剩下那些影响微弱且相互独立的众多因素,都归顺于中心极限定理. 这样一来,随机变量的一般分解式是:
x=f(x)+f^(x)+d (1)
这里,f(x)是一个以向量x为自变量的普通函数,f^(x)是由样本经过最小二乘或其它方法所拟合出的函数,它是对少数几个调皮的因素所作的精细处理,d是高斯分布,被看成是噪音. 要减少随机性,就是要加深对第二项的因素分析和掌控.
2.2 探讨模糊性:模糊集的论域是因素空间
1965年,Zadeh提出的模糊集合论[8]. 他把模糊集定义成从论域U到[0,1]上的一个映射mA:U®[0, 1],mA(u)表示u对A的隶属程度; 至于论域U是什么,则不加以过问. 然而,论域是刻画和掌控模糊性的极为重要的一环. 用因素空间来表现论域,可以实现模糊性与清晰性之间的相互转换. 例如,年轻是一个模糊概念,要看一个人是否年轻,单就年龄这个因素打分(确定隶属度)相当困难. 若加上因素面貌,打起分来就容易一些,若再加上精力、体魄、反应、朝气等因素,打分就更容易了. 关键是:因素的增加会降低认识的模糊性.
模糊数学与概率论都需要用到因素空间的理论,借用因素空间可以探讨随机性与模糊性这两种不确定性之间的联系与区别. 在随机试验中,事件A是基本空间中一个固定的集合,因素的变异点w在条件域C中变,所以,随机试验模型的特征是"圈圈固定,点子在变". 模糊试验则相反, 要考虑张三是否年轻,张三是论域中的一个固定的点子,年轻这一模糊概念在人的脑海中有着不确定的边界,成了在变的圈圈. 模糊试验模型的特征是"点子固定,圈圈在变". 这种对偶性有很深刻的意义,在数学上可用论域U(地面)和幂集2U=P(U)(天上)来作一种转换:U中的圈圈变成P(U)里的一个点,U中的点子u可以变成P(U)上的一个圈圈 u^={A|uÎA},于是,地上的模糊试验就可转化成天上的随机试验. 天上的随机变量是随机集,相应的统计是集值统计或区间统计. 靠着随机区间对u的覆盖频率来确定隶属度m年轻(u). 隶属曲线就成了随机集的落影,这就形成了模糊落影理论[9]. 书[9]把序、拓扑和可测结构提升到冪上,建立了了八种超拓扑和超可测结构,由之建立了随机集和信度理论的严密数学理论. 证明了四种非可加信度与随机集分布对应关系的存在性和唯一性定理. 把测度扩张定理的扩张起点从半环提前到p-系. 1988年,北师大张洪敏等研究生在汪培庄教授指导下研制出国际第二台模糊推理机[10],与日本山川烈在1987年的首台"模糊计算机"相比,推理速度从每秒一千万提高到一千五百万次,体积不到他的十分之一。在钱学森教授的鼓励下[11],因素空间被作为人工智能的数学支持理论来抓. 1994年汪培庄和李洪兴合著的《知识表示的数学理论》[12]一书问世,用因素空间描述了概念生成,推理、控制、决策、评价等智能谱系. 他们在1995年又出版了《模糊系统理论和模糊计算机》[13],为智能计算机的研制准备了数学部件.
-
基因从生命学科走向信息科学
沿用因素空间表示基本空间的思路,可以建立信息描述的普适性框架. 如图所示,对张三先按因素进行分析,得到他在诸因素的相以后,综合起来,张三便可以被描述成为以因素为轴的坐标空间中的一个点.
图1 张三被映射为因素空间中的一个点
(Fig.1 Zhang is maped to a point in the factor space)
人工智能发展到今天,正在建立信息科学的基本理论[14], 也正在建立相应的'泛逻辑学'[15],因素空间正好是信息科学与泛逻辑学所要寻找的数学工具.
什么是因素?中文字典的解释有三:"(1)构成事物本质的成分. (2)决定事物成败的原因或条件. (3)又称因子. 在科学试验中,影响试验指标的要素或原因,称为因素". 这三种解释与我们所理解的因素都不完全符合,需要作进一步的说明.
'因素'不是原因而是原因之要素. '雨水充沛'是丰收的一个原因,但它不是因素. 因素是这一原因中所含的要素,就是降雨量. 因素使原因发生变化,在变化中呈现因果. 如果降雨量的变化不能改变丰收这一结果的话,无论降雨量怎么变化,结果都是丰收,那么降雨量就不是实现丰收的因素;降雨量之所以对古代农业那么重要,是因为它的变化既可以使粮食大丰收,也可以使粮食颗粒无收. 能引起结果变化的因素才是人脑注意的焦点. 从原因提升到因素是人脑思维的一种升华.
原因由属性来描述,'雨量充沛'是地区的一个气象属性,降雨量不是这个属性而是属性之根,由它串出"雨量充沛"、"雨量中等"、"雨量稀少"等许多属性. 从哲学上说,事物都是质与量的对立统一,质指的是属性,但是却没有人注意并且强调:凡属性都不孤立存在,属性都是成串、至少是成双地出现. 所谓单属性,例如'哺乳',看起来孤单,但它必以'非哺乳'为伴,否则便不叫属性。成对或成串的属性必有共同的根基,汪培庄教授把它叫做质根. 不同质根下的属性没有可比性,'白'与'重'能作什么比较呢?只有相同质根的差异才有可比性,才能论异同,才能进行对比和划分,才是产生新概念和增长新知识的基础.
属性像是珍珠,质根是串联珍珠的线头。线头一断,珍珠洒满遍地,搜索起来要出现指数爆炸. 人脑是提取信息的最优化结构,人脑的感觉细胞必是按特征来组织的,神经生理学已经证明了这一点.
因素是信息的提取剂. 就像一个人到杂货铺买东西一样,必先要想清楚自己要买的究竟是哪一类的东西,否则什么东西都买不到. 信息也是这样。任何一个具体事物都是众多因素的交叉,人脑的感觉细胞先是按因素而生感觉,然后才上升为知觉,这是非意识层次的次序. 在意识层次上也是这样,人对知觉信息的意识是朦胧而模糊的,要想得到清晰的理解,必须有意识地进行分析,按因素回溯感觉,有了这种分析再综合,才能得到深一步的认识.
只有强调质根,才能找到事物和认识的成因。哲学家早已对属性下过定义,但至今仍忽视质根,而在生命科学中所诞生的基因就是生命属性的质根,这一重要的进展难道还不能引起哲学家的重视吗?现在是对质根下定义的时候了. 我们把质根叫做因素. 因素就是事物和认识的成因. 基因最早的英文名称是Mendelian factor,Factor是英文中的因素,说明基因是一种特殊的因素. 信息革命需要将谱写生命的密码扩大成为一般信息的密码,因素就是广义的基因,它是信息表示所不可或缺的东西. 基因是生命科学的范词,因素则是信息科学的范词.
根据以上分析,因素空间理论的潜在优势是:由于因素是事物描述和思维过程的最深层次的东西,因素空间将为信息和智能科学提供统一的数学语言和普适的描述框架,它将为大数据浪潮所驱动的范式转变做好必需的数学准备。
国内外有不少人把属性和因素混淆起来. 把颜色和红、绿、黄、...都叫做属性,在英文中都用Attribute一词。这是因素空间理论的一个大忌. 因素是属性之名,是属性的统帅,是比属性高一个层次的东西,绝不能加以混淆. 属性是单因素的概念,概念是多因素属性的组合. 因素与概念也不能互相混淆. 概念有是非,因素没有是非,降雨量的是非是什么?它是变量,只有大小 而无是非之分. 当然,在不同的上下文中,因素与属性和概念又是可以相互转换的,不能教条. 我们承认这种转换的灵活性,但又要坚持逻辑的严密性.
2.4 因素思维
因素的数量繁多,但却有个谱. 就本体信息论而言,自然科学中的分类体系就是客观因素的类别体系. 就认识信息论而言,人的认知因素可大致归纳如下:
- 感官因素:眼、耳、鼻、舌、身
- 属于眼的视觉因素可细分为:大小、长短、形态、结构、颜色、美观、布局、势态
- 属于耳的听觉因素可细分为:频率、振幅、节奏、语音、歌曲、韵味...
- 属于鼻的嗅觉因素可细分为主要包含:气味、香臭、氛围....
- 属于舌的味觉因素可细分为:味道、口感...
- 属于身的触觉因素可细分为:软硬、轻重...
以上因素是反应型因素. 导引型的因素是目标因素或欲望,它与以下因素密切相关:
- 本能因素: 饥饱、安危、生育、...
- 情感因素:喜、怒、哀、乐
- 性格因素:内向外向、理性感性、行动指数、乐观悲观...
- 道德因素:善恶、仁凶、自律性..
人的认知都离不开目标驱动,在目标驱动下去区分对象,形成概念,进行推理,做出评价和判断,进行决策,产生行动,去改造客观世界,并在改造客观世界的过程中改变主观世界.
以上所罗列的因素种类不多,但却不尽繁衍. 因素必须落在对象上,对象是可以细化的,随着对象的细化,因素也要细化. 例如,人体形态f是一个视觉因素,f(张三)表示张三的体态. 人体由头面,身躯和四肢等部分组成,考虑脸部形态g,就要考虑人脸的五官分布。g和f的判别特征大不相同,不能把它们看成是同一个因素. g是f细化到脸部所衍生出来的因素,叫做f的局部化因素. 仅就形态这一个因素而言就可以不断的细化下去,从这种意义上说,因素可说是无限多的.
对象都是概念的团粒,都是一个有着层次结构的系统. 因素随对象的层次而层次化. 随着对象的层次结构,因素也形成层次结构. 在实际应用中,首先要做的事情是要对因素做出层次分析.
作为一种因素思维,凡事都要理出因素的层次,对于非数学工作者来说也是有益处的. 辩证法强调事物是矛盾的对立统一,每一对矛盾都争着一个因素. 事物是矛盾的交叉,也都是因素的交叉. 因素之间互为因果,相生相克,动态平衡,非常符合我国古老的易经思想和太极原理. 即使还没有深入到因素空间的数学理论,这种思维方法在实际应用中都可以发挥重要的作用.
3.因素与因素空间的数学定义
这一节是要介绍因素空间的数学内涵. 3.1介绍因素是映射;它有定量和定性两种同的相空间,3.2介绍由定量因素组成的因素空间,它就是经典的笛卡尔空间,但维数是可变的. 3.3介绍一般因素空间的公理化定义. 3.4介绍因素空间的核心:背景关系. 背景关系是因素间的联合相的分布,它既是原子内涵所成之集,又是原子外延在相空间中的代表,由它可直接写出全体概念布尔代数;它不仅是概念生成的基础,同时又决定了因素之间的全部推理句.
3.1 因素是属性映射
在数学上,因素被定义成映射,更具体一点地说,因素是一种性状映射,它把事物映射成事物的属性或状态:
定义1 映射f: U®X(f)叫做一个因素,其中U是一类事物的集合,叫做它的定义域或论域, X(f)是它从事物所映照出来的属性或状态(统称为相)的集合,叫做它的相空间.
相有两种类型,一种是连续的实数值,例如,因素身高可表为特定的人群U上的一个映射f: U®[10, 250](cm),它把张三映射成实数185,把李四映射成175,...这样的相空间叫做定量的相空间,此时的因素就是我们过去所熟悉的变量, 变量是一种特殊的因素. 定量相空间是欧氏空间Rn中的一个超矩形,n叫做相空间的维数. 因素身高还可以有另外一种形式的相空间X(身高)={高,中,低}. 它把张三映射成高个子,把李四映射成中等个子,...这样的相是离散的用自然语言描述的属性,这种相空间叫做定性的相空间. 相的数目m叫做相数. 没有相的变化就没有因素,所以,m必须大于1. 二相因素(m=2)叫做特征,婴儿脑中所接触的因素多是特征,特征是一种特殊的因素. 特征的相有正反两极,直觉模糊集在正反两极上来建立隶属度. 有人把正极相叫做特征,把特征视为属性,这也是合理的. 特征既可被视为因素又可被视为属性,是分别从两种不同角度来说的,这并不意味着因素与属性可以混淆. 姚一豫教授所创立的三叉理论[16]是三相论,主张m=3,中国古代的哲学思想强调阴阳之间的相互平衡、强调中庸,过犹不及,平衡或中庸取0. 过取+1,不及取-1. X(f)={-1,0,+1},这样的因素可以称为三叉因素.
有的因素只取定量空间,有的因素只取定性空间。定性与定量是一对普遍矛盾,它们对立统一地寓于事物之中,相互转化,所以我们常对因素同时预留着定性、定量两种相空间,以备相互转换或捆绑. 在同时出现两种相空间的时候,我们用X(f)来表示定量相空间. 我们要将X(f)中的属性转化为X(f)上的模糊或非模糊子集. 这些事情要靠模糊集合直觉模糊集等学科来完成. 这种工作涉及坐标框架的标定, 对于因素空间来说至关重要.
定性映射决定论域的划分. 设f是定义在论域U上的一个因素,按这个因素的属性在论域U中定义了一个等价关系~:对任意u, vÎU, u~v 当且仅当f(u)=f(v). 一个等价关系决定U中对象的一个分类. 记对象u所在的类为[u]f={vÎU | f(u)=f(v)}.
定义2 记H(f, U)={[u] f |uÎU}(去掉重复出现的类),我们将它称之为f对U的划分.
因素有简单与复杂之分. 所谓f对U比g对U的划分更细 (记作H(f, U)ýH(g, U)) 是指:任给一个由g所分出的类[u]g, 必有f所分出的类[v]f 使有[v]f Í[u]g.
定义3 设f, g是定义在U上的两个因素,如果H(f, U)ýH(g, U), 则称因素f比g复杂,记作f³g. 此时称g是f的子因素或下因素,反之,则称因素f比g简单,记作f£g ,此时称g是f的上因素.
3.2 定量因素空间
论域划分是因素的灵魂,但是,定性相空间比定量相空间的研究要困难得多. 仅凭因素划分很难把一切问题都表述清楚,所以我们先要回顾一下定量因素空间,借用定量相空间来讨论定性相空间. 定量因素空间就是普通的笛卡尔坐标空间. 典型的笛卡尔坐标空间有描写粒子运动的时空四维空间,有物理学中的相空间,有控制论中的状态空间,有医学中的诊断空间,有模式识中的特征空间,…所有这些空间都是因素空间. 所不同的是,我们要求因素空间的维数不是固定而是可变的. 这个变动参数就是因素.
例1由x1='上下',x2='左右',x3='前后'这三个变量怎样生成变维坐标空间?
解 记F0={x1, x2, x3}。对变量名称来进行集合的交并运算:记x4={x1, x2},x5={x1, x3}, x6={x2, x3},x7={x1, x2, x3},为了数学运算的需要,加上一个零因素0,它没有相,只有空相Æ. 这八个变量构成幂F=P(F0),形成一个布尔代数F=(F,È,Ç,c)=(F,Ú,Ù,Ø). 把变量名称f看作是变动的参数。对任意参数fÎF, X(f)就是一个变维空间. 例如,f=x1, X(f)是一个一维直线,f=x4, X(f)是一个二维平面,f=x7, X(f)是一个三维空间. 从定维到变维,是提出因素空间的一个直接动机.
变量名称的运算在坐标架中就是维度的运算. 对线性空间来说,维度变换是通过基底来进行的. 在例1中,x1,x2和x3这三个变量的坐标向量分别是e1, e 2, e 3,叫做基底. x4={x1, x2}的坐标空间是由e1和e2所张成的二维平面,故有e4={e1,e2}=e1Èe2. 类似地有 e5=e1Èe3,e6=e2Èe3,e7=e1Èe2Èe3. 基底可以求交,如e4Çe5={e1, e2}Ç{e1, e3}=e1, 基底也有余运算,如e2c={e1, e2, e3}\e2={e1, e3}=e5. 用基底的交、并、运算可以表达因素的交、并、余运算.
因素是看问题的视角. 对于定量因素来说,这个视角就是相空间的基底. 基底的并造成视觉维度的增加,因素从简单变为复杂,从解析走向综合,所观察的对象从抽象走向具体;基底的交造成视觉维度的减少,因素从复杂变为简单,从综合走向分析,所观察的对象从具体走向抽象. 在因素合成的时候,当两个基底不相交的时候,如e3和e4,因素合成的相空间是相空间的笛卡尔乘积,但是当两个基底相交时,因素合成的相空间就不是相空间的笛卡尔乘积,而是基底分解以后相空间的笛卡尔乘积. 例如基底e4和e5是相交的,它们都张成二维空间,笛卡尔乘积是一个四维空间,这显然不是它们合成因素的相空间. 此时先要分解两个基底再并起来:e4Èe5={e1,e2}È{e1,e3}={e1,e2,e3},得到由基底e1,e2,e3所张成的三维笛卡尔乘积空间. 这些都是线性空间的固有理论所业已解决的问题. 但是,到了定性的因素空间,相空间没有基底,问题就变得非常困难. 在一般情形下,我们只能对因素空间下一个公理化的定义.
3.3 因素空间的定义
设F={f1,…,fn}是定义在U上的因素集,即fj:U®X(fj)(j=1,...,n).
定义4 设F'=P(F)=(F'; Ú,Ù,Ø, 0,1)是一个布尔代数,记X(F)={X(f)}(fÎF), 称y=(U, X(F))为U上的一个因素空间,如果满足条件:
(1)X(0)={Æ};
(2)对任意及s,tÎT, 若sÙt=0(s与t叫做不可约),则
X(Ú{f|fÎT})=Õ fÎTX(f) (Õ是笛卡尔乘积) (2)
其中,F={f1,…,fn}={f1Ú…Úfn}=1叫做全因素,0叫做空因素. Ú和Ù分别叫做因素的合成和分解运算.
对任意f={f(1),…,f(k)}ÍF, 用同一符号来记f=f(1)Ú…Úf(k). 因素集可以直接视为集中诸因素的合成因素.
我们曾把因素的合成和分解运算分别叫做合取与析取运算,也曾经倒过来叫做析取与合取运算。从不同的角度,会有不同的叫法,没有对错,但切忌把因素运算与属性运算相混淆. 最好把因素的Ú,Ù运算分别叫做因素的合成与分解. 强调合成是把视角的维度加多,使因素划分变细,使综合程度加大. 分解的方向则相反.
不可约的因素不一定独立. 从绝对的意义上说,两个因素独立就是指它们的质根没有共同成分,即sÙt=0. 但问题是,布尔代数F=(F,Ú,Ù,,Ø,0,1)在实际应用中具有不同的粒度,在一个粗粒度的结构中,两个可约的因素会变成不可约,所以,最好不用不可约性来定义独立. 因素的独立性还是要像随机变量的独立性那样从外在表现上来刻画.
这个定义是按照文[12]写的,但又有改动. 当时还没有把因素直接定义成映射. 现在则根据因素是映射来定义因素空间.
因素空间的根本目的是要把笛卡尔坐标系拓展到定性的相空间上去. 定性相空间没有基底,但定性因素决定划分,由划分的粗细来定义因素之间的一个偏序偏序³,进而可以这样来定义因素的运算: 因素f和g的最小上因素(上确界)叫做它们的合成因素,记作fÚg=sup{f, g}. 两个因素f和g的最大下因素(下确界)记作fÙg=inf{f, g}, 叫做它们的分解因素.
两个因素的合成就是划分的叠加,很简单,但分解却是很难的问题. 怎样从两个划分中粗化出公共的粗划分?怎样从两个因素分解出它们的'最大公因式'?文章[17]对于定性因素的分解问题提供了一种近似的方法. 如何实现因素的分解,这是一个尚未解决的问题,但却最有实际应用价值的问题,工艺精细化.、设计精细化、服务精细化和管理精细化都离不开因素的分解.
3.4 实际笛卡尔乘积空间---背景关系
因素空间的定义有条件地规定:合成因素的相空间等于诸因素相空间的笛卡尔乘积,条件是诸因素必须是两两不可约的. 现在的问题是:可约因素(即存在相互影响的因素)的合成相空间怎样来得到?文[12]中提出的思路是:不管两个因素是否可约,都把它们的笛卡尔乘积空间写出来. 如果两个因素是独立的,则两因素的任何组态都是可能搭配的. 若存在着不能搭配的组态,则这两个因素必不独立. 因素空间的兴趣就是要处理不独立因素之间的关联的问题.
定义5 给定U上的因素集F0={f1,…,fn},已知fj具有相空间X(fj) (j=1,...,n)),取X=X(f1)´...´X(fn). 对任意a=(a1,...,an)ÎX,记
[a]=F-1(a)={uÎU|F(u)=a}, (3)
[a]可能是空集,若[a]¹Æ,则称a是一个原子内涵,否则称a是一个虚组态. 全体实相的集合记为
R=f(U)={a=(a1,...,an)ÎX|$uÎU; f1(u)=a1,...,fn(u)=an}, (4)
叫做因素F={f1,…,fn}的背景关系,也叫做f1,…,fn的实际笛卡尔乘积空间.
显然有: F是从H(U, F)到R的同构映射.
因素对划分的贡献可以用分辨度来刻画. 把U中任意两个不同的对象序列叫做一个对子. 能分辨的对子数目越多,分辨度就越大. 设U有m个对象,就有m(m-1)个对子. 给定一个划分,用n(k)表示其中第k类对象的个数. 划分出来的每个类中都有n(k)(n(k)-1)个对子,这些对子是因素f所不能分辨的. 从所有对子中除掉不能分辨的对子,就是可以分辨的对子,再归一化,就得到分辨度:
定义 6[18]设H(U, F)={Ck=(uk,1,...,uk,n(k))}(k=1,...,K),,
df = 1 − [n(1)(n(1) − 1)+ . . . +n(K)(n(K)− 1)]/m(m − 1), (5)
叫做因素f对U中对象的分辨度.
背景关系是Wille的形式背景K在联合相空间X=X(f1)´...´X(fn)中的投影. 它是因素空间理论的核心. 有两个重要特征分述如下:。
3.4.1 背景关系是内涵与外延的重合体
R是相空间X中所有原子内涵所成之集,它当然是描写内涵的. 外延是论域中的事情,但是,由于F是从H(U, F)到R的同构映射。R又是论域的代表,所以,背景关系成了内涵与外延的重合体,这就使背景关系R是概念生成的双料调色板.
定义7 给定因素空间(U, X(F)), 设R是因素F0={f1,…,fn}的背景关系,则对任意aÎR, 称 a=(a, [a])为原子概念,a和[a]分别叫做概念a的原子内涵和原子外延; 对任意AÍR, 记[A]=È{[a]|aÎA}, G={g=(A,[A])|AÍR},称g=(A,[A])是分别以A,[A]为内涵和外延的概念; 称g=(g, Ú,Ù,Ø)是由(U, X(F))所生成的概念布尔代数.
a和[a]都是原子,由于F是从H(U, F)到R的同构映射, 它们一定满足Wille的对合性. 由原子概念取并可生成整个概念代数,理论上及其简单。
自动生成的概念不是怕少而是怕多,设原子概念的个数是k, 则概念代数的概念个数就是2k. 我们需要把概念的范围缩小. 非原子概念不一定满足对合性,其中满足对合性的概念叫做基本概念。所有基本概念形成一个半格,叫做基本概念半格,在提取基本概念半格的算法上,下面有多项式算法的复杂度是O(m2n).
算法1 (足码置换法)[18]
1. 计算每个因素对U中对象的分辨度;
2. 按分辨度从大到小的次序(相等时任意选),按因素的相在U的每一现成类中置换对象足码,使同相对象连排在一起。所作的划分就是基本概念的划分。
3. 到划分不能再细为止。总结出基本概念半格。(或画出结构树)
例2 给定由20个人组成的论域U={a,b,...,t}, 在其上有三个因素的定性相空间:
X(性别)={男,女},X(身高)={高,中,低 },X(体重)={重,常,轻},三因素对各对象的映射值分别列表如下(受篇幅限制,行列互换),试生成概念布尔代数.
a b c d e f g h i j k l m n o p q r s t
性别 男 男 男 男 男 男 男 男 男 男 女 女 女 女 女 女 女 女 女 女
身高 高 高 高 高 高 中 中 中 中 中 中 中 中 中 中 低 低 低 低 低
体重 重 重 重 常 常 常 常 常 轻 轻 重 重 常 常 常 常 轻 轻 轻 轻
解 将三个因素分别表为f1=性别,f2=身高f3=体重,则它们的相空间的笛卡尔乘积空间为
X=X(f1)´X(f2)´X(f3)={男高重, 男高常, 男高轻, 男中重, 男中常, 男中轻, 男低重, 男低常, 男低轻,
女高重, 女高常, 女高轻, 女中重, 女中常, 女中轻, 女低重, 女低常, 女低轻}
X被分成18个格子,去掉其中虚的组态,得到U上三因素所形成的背景关系
R= {男高重, 男高常, 男中常, 男中轻, 女中重, 女中常, 女低常, 女低轻}
共有8个原子内涵,这八个原子内涵将U分成8块:
[男高重]={a,b,c}, [男高常]={d,e}, [男中常]={f,g,h}, [男中轻]={i,j},
[女中重]={k,l}, [女中常]={m,n,o}, [女低常]={p}, [女低轻]={q,r,s,t}.
于是,对合性地生成8个原子概念:
a1=(男高重,{a,b,c}), a2=(男高常,{d,e}), a3=(男中常,{f,g,h}), a4=(男中轻,{i,j}),
a5=(女中重,{k,l}), a6=(女中常,{m,n,o}), a7=(女低常,{p}), a8=(女低轻,{q,r,s,t}).
由这8个原子概念任意取并,可以生成全部概念. 例子说明,从背景关系提取概念代数的方法是直接方法,是自然对合的算法,是无需计算的算法.
布尔代数中的概念并不都是对合的,例如,
a1Úa5=(男高重,{a,b,c})Ú(女中重,{k,l})=(男高重Ú女中重,{a,b,c}È{k,l})=(男高重或女中重,{a,b,ck,l})
其内涵与外延不满足对合性,取并以后就不应该再谈对合.
共有28-9=247个非空的新概念,多得无法枚举. 于是才需要寻找基本概念,这时才需要算法,下面用算法1求基本概念半格:
1)计算分辨度:m=14
f1=性别,n(1)=10, n(2)=10, cf1=1-(10´9+10´9)/20´19=1-180/380=1-9/19=10/19
f2=身高,n(1)=5, n(2)=10, n(3)=5, cf2=1-(5´4+10´9+5´4)/20´19=1-130/380=25/38
f3=体重,n(1)=5, n(2)=9, n(3)=6, cf3=1-(5´4+9´8+6´5)/20´19=1-112/380=268/380
有cf3> cf2> cf1
2) 按因f3(体重)进行足码置换, 使对象按重,常,轻分类排列:
a b k c l d e f g h m n o p i j q r s t
体重 重 重 重 重 重 常 常 常 常 常 常 常 常 常 轻 轻 轻 轻 轻 轻
身高 高 高 中 高 中 高 高 中 中 中 中 中 中 低 中 中 低 低 低 低
性别 男 男 女 男 女 男 男 男 男 男 女 女 女 女 男 男 女 女 女 女
此时,对象已经按体重排好,得到分类:
U=C1{a,b,k,c,l}+ C2{d,e,f,g,h,m,n,o,p}+ C3{i,j,q,r,s,t}
各类分别与内涵重,常,轻对合,得到三个基本概念b1=(重, C1), b2=(常, C2), b3=(轻, C3)
3) 再就因素f2(身高)逐类考察,看看该类对象是否高,中,低分相排列。在C1中,需要对对象k和c的位置进行置换,得到
a b c k l d e f g h m n o p i j q r s t
体重 重 重 重 重 重 常 常 常 常 常 常 常 常 常 轻 轻 轻 轻 轻 轻
身高 高 高 高 中 中 高 高 中 中 中 中 中 中 低 中 中 低 低 低 低
性别 男 男 男 女 女 男 男 男 男 女 女 女 女 男 男 男 女 女 女 女
此时,C1中的对象已经按身高排好,于是得到分类:
C1= C11{a,b,c}+ C12{k,l}
两类分别与内涵重高,重中对合,得到两个个基本概念b11=(重高, C11), b12=(重中, C12)。
同时,C2中的对象未经置换就已经按身高排好,于是得到分类:
C2= C21{d,e}+ C22{f,g,h,m,n,o}+ C23{p}
各子类分别与内涵常高,常中对合,得到三个基本概念b21=(常高, C21), b22=(常中, C22) , b23=(常低, C23)。
同时,C3中的对象未经置换就已经按性别排好,于是得到分类:
C3= C31{i,j}+ C32{q,r,s,t}
各子类分别与内涵重高,重中对合,得到两个个基本概念b31=(轻中, C31), b32=(轻低, C32).
4)再就因素f3(性别)逐类考察,看看该类对象是否男女分相排列. 发现性别在所有类中的排列都无需置换,类似可将
C22=C221{f,g}+ C221{h,m,n,o}
得到两个个基本概念b221=(常中男, C221), b222=(常中女, C222)
所有类都无法再划分
5)画出基本概念半格图(从略)
U
C1 C2 C3
C11 C12 C21 C22 C23 C31 C32
C221 C222
在此半格中共有13个基本概念。b0=(Æ, U),b1=(重, C1), b2=(常, C2), b3=(轻, C3), b11=(重高, C11), b12=(重中, C12), b21=(常高, C21), b22=(常中, C22) , b23=(常低, C23),b31=(轻中, C31), b32=(轻低, C32),b221=(常中男, C221), b32=(常中女, C222) ,其中,不能再分的有b11,b12,b21,b23,b31,b32,b221,b222等八个,它们就是前述的八个原子概念。其余5个基本概念,除b0=(Æ, U)而外,b1=(重, a,b,k,c,l), b2=(常, d,e,f,g,h,m,n,o,p), b3=(轻, i,j,q,r,s,t)和b22=(常中, f,g,h,m,n,o)都是我们格外关心的非原子的基本概念.
基本概念半格的提取,得到的原子概念是相同的,但中间的基本概念半格不是唯一的,与因素划分的先后次序有关。好的排序会加快实现原子分割,排除冗余的因素。最大分辨度原则提供了一种较好的排序.
足码置换的算法,就是士兵集合按营、连、排、班站队的方法. 具有大数据所要求的快捷性.
3.4.2 背景关系决定了因素之间的相互联系与推理规则。
定义8 设R是因素f1,…,fn的背景关系,若R=X(f1)´...´X(fn), 则因素f1,…,fn叫做相对独立.
定义中用了相对独立一词,是为了与随机变量的独立概念相区别. 相对独立不一定独立,独立必相对独立。
若R¹ X(f1)´...´X(fn),则诸因素之间必互有影响。因素间互为因果,我们可将综合因素F0分解为条件因素与结果因素两个部分:F0=fÚg设X=X(f)和Y= X(g)分别是因素f, g的相空间,我们来讨论它们之间的因果关系.
图2背景关系决定推理
Fig.2 Background relation determines inference
对任意EÍX, 记E*={yÎY|$uÎU;f(u)=x, g(u)=y}ÍY(Fig 2是用连续相空间来表示的); 记推理句"若x是A则y是B"为A(x)®B(y).
基本定理 1[19]背景关系R决定了因素f, g之间的全部恒真推理句:
A(x)®B(y)恒真当且仅当存在EÍX,使有 AÍE且BÍE*.
注意f, g本身可以是复杂因素,X,Y可以是任意高维的,这个定理就很有效力。它抬高了背景关系的地位。基本定理1告诉我们:掌握了背景关系,就掌握了因素之间的全部推理知识.
3.5 背景分布和模糊背景关系
背景关系提供了确定性的理论,但现实中的背景关系多带有不确定性. 原因有二:一是因素对相值定义不明确,张三究竟是青年还是中年?这带来一种模糊性;二是对象的粒度过大,说一个人的属性容易,说一群人的属性就不确定了, 要看抽中的是其中的哪一个人,这就带来一种随机性.
设(U, X(F))是一个定性因素空间,记RÍX(F)为其背景关系. 称(R, 2R)为相可测空间, 其中2R是的幂集,即是由R的一切子集所构成的集合.称(U*, 2U*)为因素可测空间,对于定义于其上的概率测度p, 称(U*, 2U*,p)为U上的因素概率场.
定义 7[20]给定因素概率场(R, 2R, p),对任意原子内涵a(1)...(n), 记p(a(1)...(n))= p(1)...(n),称{p(1)...(n)}为的背景分布.
背景分布是一个联合概率分布,它是一个高维矩阵,对于给定的因素fj, 记
pji=S{p(1)...(n)|(j)=i}(i=1,...,cj),
{pji|i=1,...,cj}称为因素fj的边缘相分布. 显然有
pji= S{pji|i=1,...,cj}=1.
条件概率:
p*(b1|a11)=p*(a11Ùb1)/p*(a11)=0.256/0.38=0.67;
p*(b1|a12)=p*(a12Ùb1)/p*(a12)=0.248/0.248=1.00;
p*(b1|a13)=p*(a13Ùb1)/p*(a13)=0.124/0.372=0.33.
引入背景分布,概率的方法就引进了因素空间的理论, 有许多工作要做.
定义 9[20]设p={p(1)...(n)}是一个背景分布,记M=max{p(1)...(n)| p(1)...(n)Îp}, 称m ={p (1)...(n)/M}为因素f1,...,fn之间的模糊背景关系.
定义10[20] 对任意阈值lÎ[0.1],记
Gl={a(1)...(n)ÎX(F)| g(1)...(n)³l} (6)
叫做模糊背景关系g 的l-截关系.
用模糊集的集合套理论,一个模糊背景关系就化为有串普通的背景关系. 引入模糊背景关系,模糊集方法也引进了因素空间理论, 有许多工作要做。
因果推理就从事实与前件的确定性匹配改为非确定性匹配,值得研究的问题也很多[21].
4 因素库理论
因素空间既是信息描述的数学框架,而数据又是信息的载体和对信息进行统计分析的基础,所以因素空间便很自然地成为数据科学的理论基础。
汪培庄教授提出了因素库理论[18]. 建立因素库最根本的出发点是:所有的数据库都可以按因素空间来建立并按因素连接和组织起来;以人类知识大树为样板,形成人机共建的知识网络..
人类的开始就像婴儿刚睁开眼睛一样,只有零概念,内涵是空描述,外延是混沌一团的宇宙。人类从零概念开始发展到今天宏伟的知识大厦是一步一步地走出来的. 知识团粒每一次分划都是上位概念被一组因素划分出新的子概念并形成一个知识单元,每个知识单元要执行三大任务:1. 生成子概念;二,对子概念进行因果推理,三,基于概念和推理,进行归纳、学习、评价、决策、控制等一系列的高级思维活动. 任务三是亮点,但它是任务一和二的衍生品,基础是概念和推理. 因素库把知识单元的上概念之外延取为论域U,用这个因素空间作为处理知识单元的平台,取名为一个认知包。认知包要完成知识单元所要执行的三大任务,其中前两项已被因素空间的背景关系理论所敲定.
4.1认知包
因素库的基本单元叫做认知包。从数据的分析形式上说,一个认知包就是一张因素主表和一系列衍生出来的表. 一张表(一个因素空间)往往不能完整地描述一项认知任务,它需要按照对象的团粒和系统结构由多张表和多个因素空间来完成[21]. 最简单的表就是表格矩阵。表中第i行第j列所在格子中填写的是第i个对象在第j个因素映射下所得的相. 表中第j列是第j个因素对不同对象所照出来的相;表中第i列是第i个对象被不同因素所照出来的相. 现行关系数据库表或信息系统都是这种映射. 因素库表所记录的是一组因素对事物的联合映射. 如果论域U是由m个对象团粒所构成的有限论域,则这个映射可被m个组态所确定. 如果论域是无限集,则因素表不能完全描写这种映射,这时,就把那无限个样本点的理想成像叫做母体,一张因素表就是母体的一组样本实现. 按照石勇教授所提出的因素库框图[22],因素表不一定要是矩阵,只强调因素映射的对应关系,因为,非结构化的数据载体没法往格子里放. 也可以将矩阵推广为矩阵元[22]. 矩阵元是可嵌套的矩阵,矩阵的元素可以是矩阵.
定义11 一个认知包是一个三元组K=(#,y,q), 其中,y=(U,X(F))是因素空间,叫做认知包K的表现空间,它的论域U是上位概念的外延; #是标志符号,它指明上位概念的内涵,其作用是实现认知包之间的相互连接; q叫做问答系统,它能回答有关识别、归纳、学习、评价、决策、控制等一系列的问题.
定义 12 y的一组样本实现S叫做K的的一张因果表S. 记T=(u; f1,…,fk; g),叫做表头,其中g可以是g=fk+1Ú…Úfn,也可以是目标向量q, 也可以空位. f1,…,fk和g分别叫做条件因素和结果因素.
以上的定义是形式上的定义,但最重要的是:每个认知包的任务是要完成人脑认知单元的三大任务,首先是头两件任务. 关于第一项概念生成的问题,前面所讲的算法1可以完全照搬. 因为,因素表就是背景关系的样本,背景关系决定概念生成,样本也就照样决定概念生成. 下面集中讨论因果推理的问题. 因素互为因果,怎样从表头为T=(u; f1,…,fn-1; g= fn)的相样本S中来提取因果规则呢?设sÎX(f), tÎX(g), 记[s]={u|f(u)=t}, [t]={u|g(u)=t}
定义 13 如果[s]Í[t], 则称[s]是因素f的一个决定类. 因素f的所有决定类的并集叫做它对结果的决定域. 因素f的决定域所占行数h与表的行数(即全体对象个数)之比称为它对结果的决定度[23], 记作 c(f)=h/m.
直观地说,条件因素f与结果因素g都在对U进行分类,如果f分出的某个类[s]钻入了g的一个类[t],则[s]中的对象都具有相同的结果t,这时就得到一个推理句:"若uÎ[s]则g(u)=t". 若记x=f(u), x=f(u), 则推理句变为"若x=s,则y=t", 推理句就可简写为s®t. 于是,因素表就可以对诸条件因素进行划分,类越分越细,钻入结果类的机会就越来越多,得到的推理句也越来越多. 直到不能再分为止,整个表就转化为一组规则,叫做因果规则,这种方法叫做因果分析法。在大数据面前,必须进行因素的约简,这与因素的分类次序相关,算法2的思想是按决定度的大小次序来排列,使因素能得到较好的约简。
算法2 [23](因果分析法)
给定以表头T=(u; f1,…,fk; g)为表头的因素表S, 要从表中提取因果规则.
-
计算各个因素,fj对结果 g的决定度;
-
选决定度最大的因素对U分类,若出现能钻入结果类的类别,就写出相应的推理句;
-
逐次细化分类,直到所分类全部钻入结果类或不能再分为止. 收集因果规则集。可以画出因果树.
此算法的目标是提取推理树。进一步则可以推理树来进行推理:
-
输入一个条件因素的组合相,与推理规则集的前件进行匹配,按最大隶属原则可输出对相应的结果.
加了步骤4的算法叫做因果推理算法[24]. 它就是是离散情形下的学习算法、分类算法和决策算法.
因果分析法具有很高的概括性,是归纳、学习、分类、决策、评价、预测、控制等高级思维活动的统一算法.,因素空间理论对智能描述的特点就是'统一简捷'.
因果分析算法和基本概念半格生成算法一样,本质上也是因素划分. 在划分中钻入结果. 其算法虽简单。却有深化改进的余地,.汪华东提出了改进算法[25],加快了计算速度.该法与决策树的算法很相似,只是用决定度取代了信息增益. 包延科用轮廓置换法对连续相空间的因素分析提出了新的算法[26]. 曾繁慧等用因果推理算法与云模型相结合得到连续变量的决策树算法[27].
4.2 背景关系的培植与背景基
因素空间中所提出的背景关系R是一个母体概念,每一张个样本点都具有与表头相同的表达形式ti=(ui; x1i,…,xki; yi). 若把对象去掉,si=(x1i,…,xki; yi) 就是因素空间中的一个点,由于与对象割断了联系,这个点就不能反映个人的隐私.
定义 14[28] 记S={si=(x1i,…,xki; yi)|i=1,…,m},叫做相样本或隐私样本.
如2.4.1和2.4.2所言,背景关系R是概念生成的核心,也是推理的核心,有了概念和推理,就有了其它上层的智能活动,问答系统就可以迎刃而解. 所以,在因素库中,首先就要考虑样本怎样表现背景关系?很明显的事实是:相样本所描写的就是背景关系,当样本逼近母体时,相样本就变成背景关系。
基本定理2[28] 设S是相样本,永有SÍR;所有同表头相样本的并就是背景关系:
R=È{S|S是相样本} . (7)
基本定理2告诉我们:要得到背景关系,只要把相样本不断地求并,就可以单调递增地逼近目标。同表头的相样本求并就是行的叠加.
由于相样本是隐私样本,不侵犯隐私权,所以,背景关系的提取会绕过数据隐私性的瓶颈.
正是这个基本定理才确立了数据培育的思想. 认知包的生长过程就是数据在分析运用的过程中被培植成背景关系的过程. 在用数据进行分类或决策过程中所出现的失误,除了数据本身所携带的噪音之外,本质原因是因为S没有覆盖R, 所谓覆盖率或充分性程度,就是S对R的逼近程度. 随着S对R的逼近,正确识别率也不断提高,认知包就趋向稳定和成熟. 认知包中的数据是运动的生命体,是培育的对象,数据培育的目标就是要用样本叠加去逼近背景关系,目标的实现意味着认知包结成了知识的正果.
背景关系如此重要,如何对它进行无信息损失的压缩就成为首要问题. 文[27]中提出了背景基的概念. 背景关系R具有凸性,就定量的相空间X而言,R是其中的凸集或凸集的并. 凸集可用顶点来生成. 这些顶点所构成的集合叫做背景基,
定义15[28] 给定因素空间y=(U,X(F)), F={f1,..., fn, g}. 设所有因素的相空间都有序而可以用整数来作为相的记号,这样的相空间叫做拓架空间..
引入托架空间的思想是简化背景关系的信息存储. 图2是二相背景关系的表示,其中横轴是因素f的相空间X(f)={1,2}, 纵轴是因素g的相空间X(g)={1,2}.
图(a)表示背景关系等于乘积相空间,此时没有有价值的推理. 当推理的后件等于结果因素的相空间时,推理句是一个大实话,就叫无价值的推理,图(b)的背景关系比乘积相空间小,缺了左上角,此时有两个有价值的推理句:"若x=f(u)=1, 则y=g(u)=1" "若y=g(u)=2, 则x=f(u)=2". 图(c)的背景关系只决定一个有价值的推理句:"若y=g(u)=1或2, 则x=f(u)=1".
图(d)的背景关系决定了四个有价值的推理句:"若x=1, 则y=1","若x=2, 则y=2","若y=1, 则x=1","若y=2, 则x=2".图(e)的背景关系决定了两个推理句:"若x=1, 则y=1","若y=1, 则x=1".
图2 可以类比易经中的八卦,叫做二爻卦. 读者可以画出三爻卦的图像,每一种卦都对应着一定的因果律. 这可与三叉理论联系起来.
在托架空间中可以引用凸性,借以引入最重要的概念背景基:
定义 16[29] 若背景关系R在托架空间中是凸集,记R的所有顶点所成之集为B= B(R)={P|P是R的顶点}, 叫做背景基. 将R换作是样本S,记B的所有顶点所成之集为 B(S)={P|P是S的顶点}, 叫做样本背景基.
背景基可以生成背景关系,它是背景关系的无信息损失的压缩,对因素库的实际应用具有重要的意义. 无论数据多大,样本背景基的数量始终保持在低维度上. 在网上吞吐数据时, 每输入一个新的数据,都要判断它是否是样本背景基的内点,若是,则删除此数据,否则将它纳入样本背景基,此时,要逐一检验原有的基点,它若是它被新基点所取代后的新样本背景基的内点,则淘汰删除之.
给定整值样本S, 怎样判定谁是它的内点?记o是S的中心(不一定是整值点),对于任意一点P,从P到o引一条射线Po,
内点判断定理[30] P是S的一个内点当且仅当在S中存在一点Q,使射线PQ与射线Po形成钝角,亦即,(Q-P, o-P)<0.
例如,在图3中,给定S包含a=(2,1)、b=(4,5)、c=(5,3)三点,试问d=(2,4)内点吗?e=(3,2)呢?
解
o=(a+b+c)/3=(3.7, 3)
(o-d, a-d)=(1.7, -1)(0, -3)=3>0;
(o-d, b-d)=(1.7, -1)(2,1)=2.4>0
(o-d, c-d)=(1.7, -1)(3, -1)=6.1>0
都是非负,d不是S的内点.
(o-e, a-e)=(0.7, 1)(-1, -1)= -1.7<0;
一旦出现负数就是内点,e是S的内点.
判断一点是否内点的计算复杂度是O(nk) (n是因素个数,k是样本点个数).
对于背景基的选取,文[31]还提出了旋转矩形内逼的方法.
5 人机认知体的构建
信息整合所面临的理论难题是:事物的分类不具唯一性,面对着浩瀚的知识,可以有多种上下概念连接的知识树,其数目是大得惊人的. 不同的任务和目标需要不同的划分和连接方式,唯有目标因素才可以选定合适的树结构,目标驱动知识分划. 必须建立以目标因素为主导的动态联接模式. 要实现这一点,因素库的每个认知包必须设立标志符号,标明论域的概念名称和任务目标.
因素库以认知包为单元,在网上吞吐数据,在运用数据的过程中培植数据,各自培养出以背景关系为核心的知识基. 它决定包内的一切推理句;它对大数据吐故纳新,始终保持自己的低维度;它不涉及隐私又与同类知识包并行合作;它以上下关系与异类包进行连接,形成人机认知体. 人机认知体是带着一定目的,有一定认知功能,在网上吞吐数据,并有人参与的对所在系统进行监测、组织、管理、控制的软硬件系统[28].
智能计算机研究在经过低潮又起来之后,面对着大数据浪潮,所期待的新产物就是人机认知体,现代智慧管理系统、智慧城市系统、智慧医疗保健系统所期待的共同结晶也是人机认知体,这就是也因素库要落实的目标.
人机认知体有软件也有硬件,软件起核心作用. 而软件的核心就是因素库.
人机认知体是自组织的生态系统. 且看未来,成千上万的人机认知体即将迅速出现,渗透和影响到人类生活的方方面面. 世界各大国之间将为人机认知体的发展而拼搏. 这是一个不以人们意志为转移的客观现实. 无法逃避,只有积极营造. 我们要想实现自己的强国梦,就必须集中优势兵力,在国家有关部门自上而下的组织和领导下,各行各业同心协力,从一个个小的认知单元做起,自下而上地开展一个构建人机认知体系的伟大工程.
6因素空间理论发展的若干课题
6.1背景关系的信息压缩
背景基是背景关系信息压缩的关键. 文[28]中利用托架空间作了初步的工作,已有的研究还不成熟,能够把背景关系维持在中等数据的量级上,还需进一步深入[31]. 对定性相空间而言,背景关系R可以表为若干基本概念的并,基本概念简化了信息的表示,是变相的背景基. 这就有了逻辑表达的新思路. 一张因素表,直接写出了背景关系的析取范式,利用逻辑化简的方法,可以用简短的描述把背景关系刻画出来. 这种逻辑化简的方法与布尔逻辑不完全相同,新的简化方法可以称之为因素逻辑[32].
6.2 用因素空间处理非结构化数据
按照石勇教授所提出的因素库框图[22],因素库所以接纳的数据除了结构化数据以外还有非结构化数据和异构数据,如何将非机构化和异构数据结构化?文[33]在F中要考虑增添半结构性数据表征的因素. 例如,"面孔"就是一个这样的因素,它的状态空间是由一张张头像组成. 这里提出的描述半结构性数据表征因素的研究路线是:用矩阵元代替实数. 用矩阵所表示的因素状态叫做矩阵元. 矩阵元的元素可以是实数,也可以不是实数而是更小的矩阵元. 一个512´512的矩阵元既可看成是一个512行、512列的实数矩阵,也可改写为一个32´32的矩阵元,它的每个元素是16´16的实数矩阵. 因素的综合可以被表达成为同型矩阵元的线性组合,它把多个矩阵元压缩成了一个同型矩阵元. 当一个高阶矩阵元只包含一行一列的低阶矩阵元时,高阶矩阵元便降阶而变成低阶矩阵元。所以,矩阵元可使半结构因素转化为实数表示的因素。声音也可以用矩阵元来做类似的处理. 这样就可以实现多渠道信息的融合. 在没有实现融合以前,也可以搁置差异,对结构化与半结构化分头处理. 文[33]用因素的合成运算把512´512个粒子灰度因素合成为线素因素,其中包括512条横线素和512条竖线素,给定图像中的任意一个实体,比如说,一头大象,必使与它相交的线素与与它不交的同型线素形成类别。这种类别必在线素的相似矩阵中反映出来,根据这一原理,文章提出一种场景分析的算法,用以判断一张图片上有几个物体.
6.3 因素藤,因素粒化空间的嵌套结构与数据认知生态系统
因素是数据的成因. 数据靠因素的繁衍而繁衍。因素粒化表示的嵌套与细化形成了数据认知生态系统[34].
零概念的外延O被因素'虚实性'划分成为'物质'与'精神'两个子概念,并将此叫做粒子划分,记作O=(A1(物质),A2(精神)):称为零概念的粒化表示. 再把物质界A1当作论域,用f1=生命性,再分,得到新的因素粒化表示(A1;{A11(生物),A12(非生物})。用它取代O的粒化空间中的A1, 便得到一种嵌套结构.
我们把精神对象A2当作论域,用f2=功能性,再分,得到新的因素粒化空间(A2;{A21(教育),A22(文化),A22(娱乐)}). 用它取代O的粒化空间中的A2, 便得到一种嵌套结构. 把这种嵌套用框架表示法画出来.
这样的过程可以不断地继续下去.
在这个例子中,我们可以看到f1只是对物质对象才有意义,对精神界是没有意义的. 这说明因素的出现和使用是有一定次序的. 在概念粒度的细化过程中,如果上位概念的外延没有收缩到某个概念的定义域之内的时候,这个因素就不能在这个数据认知包中使用. 因素f'虚实性'将O细化到物质,使其外延钻入因素f1'生命性'的定义域内而使之出现,这种关系叫做先后关系. f叫做f1的先生因素,f1叫做f的后生因素. 这种关系与前面所说的强弱关系不同,那是同域因素之间的一种关系,而这里是不同域因素之间的一种关系.
由一个或多个数据因素粒化空间经过因素细化及嵌套化所形成或发展中的系统,叫做一个因素藤,它表示一个数据认知生态系统.
因素藤是为数据认知生态系统所提供的一种知识表示构架,它是一棵佩戴着因素空间的概念树. 如图所示,每个节点K一张开就是一个因素空间,主宰着从上位概念到下位概念的划分. 在数据表中安置适当的窗口,窗口一旦被点开,就出现一个新表. 这种带窗口的数据表将是大数据库的新形式,需要新的Codd 理论来建立新的大数据库的语言.
6.4 因素权重与因素凸显
因素空间的理论不仅要用因素,更应该去找因素. 因素库的很多问题不是用因素而是要找因素. 模式识别的的核心问题是特征提取,特征提取就是要从给定的灰度因素中把真正起作用的因素凸显出来. 叫做因素凸显。深度学习就是因素凸显的算法. 因素空间要为深度学习提供理论支撑,但难度很大. 现在还没有写出文章.
6.5 变权评价与决策理论
上面的问题的解决要用到权重理论. 权重是一种因素词汇,它是事物在因素搭配中的剂量,是对不同视角的协调,权重是质根之间的平衡,体现着量与质的交融,权重是匠人的心艺,是决定胜负的指挥技巧. 决策和评价理论都离不开权重. 中国的综合评价及贴近度和最大隶属原则始于汪培庄[35]及陈永义[36,37]. (后来与T. L. Saaty提出的层次分析法相结合,出现了层次综合评判. 又受逻辑回归的属性影响,权重的形式从算术加权(WAA)发展到几何加权(WGA)). 李洪兴提出了因素空间的权重决策理论[38],汪培庄在文[7]又提出了变权,变权造成了因素场中的位势与力, 李洪兴就动态变权提出了因素位势的三种动态微分方程[39]. 把物理思想引入评价理论(这符合李德毅院士对数据空间要建立认知物理学[33]的思想[40]). 郭嗣琮用他所创立的结构元理论[41]来指导研究生进行评价和决策研究.曾文艺、李德清等随着在在变权综合决策评价方面做了一系列的工作[55-72]. 下一步的研究方向是:评价动态系统应有全局性的局势和调控参数。调控好临界的参数,可以稳定全局,临界参数的改变可以改变评价体系,可以倒逼管理决策系统的革新.
6.6 发现因素与精细分析
引用何平教授的话:知识发现就是因素发现,发现了因素就发现了知识. 现在有精细管理的学科,将来必有精细工艺,精细设计、精细扶贫、精细教育、精细养老、精细调控、精细创新等一系列的精细分析学的出现. 一项工艺为什么老不如人?总有什么因素人家掌握了而自己还不知道. 新因素存在于因素的交叉. 交叉学科为什么能出行东西?是因为两种学科因素存在着最大公因素. 它就是新的因素. 要提取这个最大公因素,就是要将两个因素进行分解. 因素的合成运算好作,分解运算很难. 文[17]是对因素分解的一个初步尝试。
6.7 因素空间与安全理论
因素空间已经深入到安全领域. 在社会治安方面,何平教授提出了非优理论并与因素空间相结合建立了犯罪理论[40-46]. 郭嗣琮和金智新用因素空间提出了以矿业为背景的安全结构理论. 崔铁军博士用因素空间提出了内在结构和外在环境双向分析的故障树理论[47-52].
6.8 代数、拓扑、微分几何、范畴理论的综合研究
人有形象思维,不仅艺术家有,数学家也有,他们认为在从事数学研究的时候,形象思维比逻辑推理还重要. 这种形象究竟是什么呢?心理学家有初步解释。欧阳合博士认为,因素空间应当引入某种拓扑结构来捕捉思维的形象。他用微分几何和代数拓扑对因素空间提出了深刻的见解[72-74]. 冯嘉礼教授将物理思想引入因素空间[76],在模式识别方面提出了多种快捷算法,袁学海教授也在代数、范畴等方面进行了深入的理论研究[77-82].
7. 结论
因素空间还远远没有引起人们足够的重视,其重要性是怎样评价都不为过的. 它是大数据驱动的信息革命范式转变所不可缺失的数学工具,大数据下的数据处理要求简、捷、网、智这四个字,这四个字正好是因素库的特征. 因素空间是我国学者自己创建的学说,比起国外的理论,毫不逊色,请大家共同为它喝彩、给它加力!
参考文献:
[1] Wille R., Restructuring lattice theory: An approach based on hierarchies ofconcepts [J]. Ordered Set, 1982: 445-470.
[2] Pawlak Z. Rough sets [J]. International Journal of Computer and Information Sciences, 1982, (11): 341-356.
[3] 汪培庄, Sugeno M. 因素场与模糊集的背景结构[J]. 模糊数学,1982, (02): 45-54.
[4] Thurston, L L. Multiple Factor Analysis. Psychological Review, 1931, 38(5), 406–427.
[5] 蔡文,可拓集合和不相容问题,科学探索学报,1983(1)
[6] 刘增良. 因素神经网络理论[M]. 北京: 北师大出版社, 1990.
[7] 汪培庄. 随机过程[J], 见 《统计物理学进展》(郝柏林,…,汪培庄等编著) 北京:科学出版社,1981.
[8] Zadeh L A. Fuzzy sets. Information and Control, 1965,9:388-357.
[9] 汪培庄. 模糊集与随机集落影[M]. 北京: 北师大出版社, 1985.
[10] 唐旬. 国内首台模糊推理机分立元件样机研制成功[N]. 1988, 光明日报 5月7日.
[11] 涂元季. 钱学森书信. 北京: 国防工业出版社, 2007.
[12] 汪培庄, 李洪兴. 知识表示的数学理论[M]. 天津: 天津科技出版社, 1994
[13] 汪培庄, 李洪兴. 模糊系统理论与模糊计算机[M]. 北京:科学出版社, 1995.
[14] 钟义信, 高等人工智能原理(观念·方法·模型·理论), 北京:科学出版社,2012
[15] 何华灿. 泛逻辑学原理[C]. 北京:科学出版社,2001.
[16] Yao Y Y. Three-Way decision: An interpretation of rules in rough set theory//Wen P, Li Y, Polkowski L, et al. Risk, 2009, LNCS. Berlin: Springer, 2009: 642-649
[17] 汪培庄等,因素分解与精细分析(Working Paper)
[18] 汪培庄. 因素空间与因素库[J]. 辽宁工程技术大学学报: 自然科学版, 2013, 32(10): 1-8.
[19] Wang P Z, Zhang X H, Lu H Z, Zhang H M, Xu W, Mathematical theorem of truth value flow inference,
Fuzzy Sets and Systems and 1995,72:221-238
[20]刘海涛,汪培庄,背景分布和模糊背景关系(待发表)
[21] 金智新. 安全结构理论. 北京: 科学出版社,2012.
[22] 石勇. 大数据与科技新挑战[J]. 科技促进发展, 2014, (1): 25-30.
[23] 汪培庄, 郭嗣琮, 包研科, 刘海涛. 因素空间中的因素分析[J]. 辽宁工程技术大学学报: 自然科学版, 2015, 34(2): 273-280.
[24] 刘海涛, 郭嗣琮. 因素分析法的推理模型[J]. 辽宁工程技术大学学报: 自然科学版, 2015, 34(1): 124-128.
[25] Wang H D, Wang P Z, Shi Y, Liu H T. Improved factorial analysis algorithm in factor spaces[C]. International Conference on Informatics, 2014: 201-204.
[26] 包研科,赵凤华.多标度数据轮廓相似性的度量公理与计算.辽宁工程技术大学学报(自然科学版),2012,31(05):796-800.
[27] 曾繁慧,李艺.因素空间理论的决策树C4.5算法改进[J].辽宁工程技术大学学报:自然科学版(已录用).
[28] 汪培庄,因素空间与因素库简介(特约报告),智能科学与数学论坛,2014年5月葫芦岛.
[29] 汪培庄. 因素空间与数据科学[J]. 辽宁工程技术大学学报: 自然科学版, 2015, 34(2): 273-280.
[30] 汪培庄等,因素数据库的背景基及基本算法(Working Paper)
[31] 曾繁慧,郑莉.因素分析法的样本培育[J].辽宁工程技术大学学报:自然科学版 (已录用). [32] 汪培庄等,因素逻辑(Working Paper)
[33] Liu H T, Li L, Wang P Z, Shi Y, Heterogeneous data preprocessing and scene analysis based on factor space theory(Working Paper)
[34] 汪培庄等,因素藤与人机认知体,待投稿
[35] 汪培庄. 模糊集合论及其应用[M]. 上海: 上海科技出版社, 1983.
[36] 陈永义,刘云峰,汪培庄,综合评判的数学模型[J],模糊数学,1983,3(1):60-70.
[37] 陈永义. Fuzzy蕴涵算子探讨(I).模糊数学,1982, (2): 1-10.
[38] Li H X, Li L, Wang J. Fuzzy decision making based on variable weights [J].
[39] 李洪兴. 因素空间理论//因素空间理论及其应用,智能科学与数学论坛,2014,葫芦岛, 57-161.
[40] 李德毅,认知物理学(特约报告),东方思维与模糊逻辑—纪念模糊集诞生五十周年国际会议,中国,
大连, 2015年8月
[41] 郭嗣琮. 基于结构元理论的模糊数学分析原理. 沈阳:东北大学出版社,2004.
[42] 何平. 基于因素空间的直觉推理系统研究, 模糊集与智能系统国际会议论文集,2014,pp6-48.
[43] 何平. 犯罪空间分析理论及防控技术研究. 北京:现代教育出版社,2008.
[44] 何平. 犯罪空间分析与优化. 北京:中国书籍出版社,2013
[45] He Ping, Design of interactive learning system based on intuition concept space, Journal of computer, 2010, (5): 478-487.
[46] He Ping, Crime pattern discovery and fuzzy information analysis based on optimal intuition decision making, Advances in Soft Computing of Springer, 2008, (54): 426-439.
[47] He Ping, Crime knowledge management based on intuition learning system, fuzzy system and management discovery,In: Jun Ma, ed, Proc. of the Int'l conf IEEE Computer Society, 2008,pp. 555-559.
[48] He Ping, Research of trust fuzzy computing system based on intuitive factor space (Accepted).
[49] 崔铁军,马云东. 宏观因素影响下的系统中元件重要性研究[J]. 数学的实践与认识, 2014, 44(18): 124-131.
[50] 崔铁军, 马云东. 基于因素空间的情况区分方法的研究[J]. 系统工程理论实践, 2015, 35(11): 2891-2897.
[51] 崔铁军, 马云东. 因素空间的属性圆定义及其在对象分类中的应用[J]. 计算机工程与科学,2015, 37(11):2170-2174.
[52] 崔铁军, 马云东. 连续型空间故障树中因素重要度分布的定义与认知[J]. 中国安全科学学报, 2015, 25(3): 24-28.
[53] 崔铁军, 马云东. 基于模糊结构元的SFT概念重构及其意义[J/OL]. 计算机应用研究, 2016 (07)
[54] 崔铁军, 汪培庄, 马云东. 01型空间故障树的结构化表示方法[J]. 大连交通大学学报, 2016, 37(1): 82-87.
[55] Zeng W Y, Li J. Fuzzy Logic and Its Application in Football Team Ranking[J]. The Scientific World Journal, 2014.
[56] Zeng W Y, Feng S. Approximate reasoning algorithm of interval-valued fuzzy sets based on least square method[J]. Information Sciences, 2014, 272: 73-83.
[57] Zeng W Y, Feng S. An improved comprehensive evaluation model and its application[J]. International Journal of Computational Intelligence Systems, 2014, 7(4): 706-714.
[58] 李德清, 冯艳宾, 王加银, 李洪兴. 两类均衡函数的结构分析与一类状态变权向量的构造[J]. 北京师范大学学报(自然科学版),2003, 39(5): 595–600.
[59] 李德清, 谷云东, 李洪兴. 关于状态变权向量公理化定义的若干结果[J]. 系统工程理论与实践, 2004, 24(5): 97-102.
[60] 李德清, 李洪兴. 变权状态分析与状态变权向量的确定[J]. 控制与决策, 2004, 19(11): 1241-1245.
[61] 李德清, 崔红梅, 李洪兴. 基于层次变权的多因素决策[J]. 系统工程学报, 2004, 19(3): 258-263.
[62] 李德清, 赵彩霞, 李洪兴. 等效均衡函数的性质及均衡函数的构造[J]. 模糊系统与数学, 2005, 19(3): 87–92.
[63] 李德清. 语言值加权综合决策[J].系统工程理论与实践, 2006,26(1):141-143.
[64] 李德清, 郝飞龙. 状态变权向量的变权效果[J]. 系统工程理论与实践, 2009,29(6): 127-131.
[65] 李德清, 王加银. 基于语言量词的变权综合决策方法[J]. 系统工程理论与实践, 2010, 30(11): 1998-2002.
[66] 李德清, 王加银. 基于语言量词的变权综合决策方法[J]. 系统工程理论与实践, 2010,11(11): 1998–2002.
[67] Li D Q, Zeng W Y, Li J. Note on uncertain linguistic Bonferroni mean operators and their application to multiple attribute decision making[J]. Applied Mathematical Modelling, 2015, 39(2): 894-900.
[68] Li D Q, Zeng W Y, Zhao Y. Note on distance measure of hesitant fuzzy sets[J]. Information Sciences, 2015, 321: 103-115.
[69] Li D Q, Zeng W Y, Li J. New distance and similarity measures on hesitant fuzzy sets and their applications in multiple criteria decision making[J]. Engineering Applications of Artificial Intelligence, 2015, 40: 11-16.
[70] 李德清, 李洪兴. 状态变权向量的性质和构造[J]. 北京师范大学学报(自然科学版), 2002, 38(4): 41–46.
[71] 余高锋,刘文奇,李登峰. 基于折衷型变权向量的直觉语言决策方法[J]. 控制与决策, 2015, 30(12): 2233-2240.
[72] 余高锋, 刘文奇, 石梦婷. 基于局部变权模型的企业质量信用评价[J]. 管理科学学报.2015,17(2): 85-94.
[73] 欧阳合,代数拓扑与大数据(特约报告),中国科学院大数据高端论坛,2014年12月北京
[74] 欧阳合,持续同调在大数据分析中的应用(特约报告),中山大学国家自然科学基金双清论坛,广州, 2015年3月
[75] 欧阳合,不确定性理论的统一理论: 因素空间的数学基础(特约报告),东方思维与模糊逻辑—纪念模糊集诞生五十周年国际会议,中国,大连。2015年8月
[76] 冯嘉礼. 思维与智能科学中的性质论[C]. 北京:原子能出版社, 1990.
[77] Yuan X H, A fuzzy algebraic system based on the theory of falling shadows, Journal of Mathematical Analysis and Applications 1997, (208):, 243-251.
[78] 袁学海, 李洪兴,孙凯彪,基于超群的粒计算理论
[79] Yuan X H, , Li H X, Lee F S. Categories of fuzzy sets and weak topos, Fuzzy Sets and Systems, 2002 (127):291-297.
[80] Yuan X H, Wang P Z, Lee F S, Factor space and its algebraic representation theory [J]. J. of Mathematical Analysis and Applications, 1992, 17(1): 256-276.
[81] Yuan X H, Lee E S, Wang P Z. Factor Rattans, Category FR (Y), and Factor Space[J]. Journal of Mathematical Analysis and Applications, 1994, 186(1): 254-264.
[82] Yuan X H, Li H X, Zhang C. The set-valued mapping based on ample fields [J]. Computers and Mathematies with Applications, 2008, (56): 1954-1965.
[83] Peng X T, Kandel A,Wang P Z. Concepts, rules and fuzzy reasoning: A factor space approach, IEEE Transection on Systems, Man and Cybernetics, 1991, 21(1):194-205.
[84] 曲国华,张汉鹏, 刘增良, 张强. 基于多Agent的复杂经济仿真系统构建策略,(已接收)
[85] 包研科,茹慧英,金圣军. 因素空间中知识挖掘的一种新算法,辽宁工程技术大学学报(自然科学版),2014,33(8):1141-1144.
[86] 包研科,金圣军,群体整体优势的多因素评价模型与实证(待投)
[87] 陈永义. Fuzzy蕴涵算子探讨(I).模糊数学,1982, (2): 1-10.
[88] 陈永义,汪培庄. 最优Fuzzy蕴涵和近似推理的直接方法[J],模糊数学,1985, 5(1):29-40..
[89] 郭春霞, 刘增良, 张智南, et al. 网络攻击知识因素空间模型[J]. 电讯技术, 2009, 49(10): 11-14.
[90] 郭嗣琮, 孙晶, 复模糊函数与模糊复函数的微分及其性质,模糊系统与数学,2013, (04):6-12.
[91] 郭嗣琮, 戴宁, 阎国军. 因素空间与形式概念分析及粗糙集的比较[J]. 辽宁工程技术大学学报: 自然科学版, (已录用).
[92] 郭亚军, 姚爽, 黄玮强. 基于变权的语言评价信息不完全的群组评价方法[J]. 控制与决策, 2009, 24(9): 1351-1355.
[93] 韩立岩,汪培庄,应用模糊数学[M],北京:北京经济学院出版社,1989.
[94] 韩颖, 黄小源, 李丽君. 多步变权组合预测及其应用- 以预测我国邮政收入及从业人员为例[J]. 东北大学学报(自然科学版),2007,28(7):1061-1064.
[95] 何波,郭嗣琮,企业节能减排绩效的模糊数学评价模型,能源技术经济,2012,(05):51-55.
[96] 何清, 童占梅. 基于因素空间和模糊聚类的概念形成方法[J]. 系统工程理论与实践, 1999, 19(8): 99-104.
[97] He Q, Wang H C, Zhuang F Z, Shang T F, Shia Z Z. Parallel sampling from big data with uncertainty distribution[J], Fuzzy Sets and Systems 258 (2015) 117–133.
[98] 黄崇福,汪培庄,利用专家经验对活动断裂进行量化的模糊数学模型[J],高校应用数学报,1992, 7(4):525-530.
[99] 黄崇福. 检验智联网能否提高智能的一个途径(特约报告),东方思维与模糊逻辑—纪念模糊集诞生五十周年国际会议,中国,大连。2015年8月.
[100] 吉君, 江青茵等, 啤酒发酵工程的多变量开关控制仿真研究[J], 《因素空间的理论及其应用》(辽宁工程技术大学智能科学与数学论坛会议资料), 2014, pp: 236-239.
[101] Kendel A, Peng X T, Cao Z Q, Wang P Z. Representation of concepts by factor spaces. Cybernet. Systems, 1990, 21(1): 43-37.
[102] 兰海, 史家钧. 灰色关联分析与变权综合法在桥梁评估中的应用[J]. 同济大学学报(自然科学版), 2001, 29(1): 50-54.
[103] 李春好, 孙永河, 贾艳辉等. 变权层次分析法[J]. 系统工程理论与实践, 2010, 30(4): 724-731.
[104] 李洪兴. 因素空间理论与知识表示的数学框架(Ⅶ)──多重目标综合决策[J]. 模糊系统与数学, 1995, 02期.
[105] 李洪兴. 因素空间理论与知识表示的数学框架——描述架中概念的结构[J].系统工程学报, 1996, 11(4): 7-16.
[106] 李洪兴. 因素空间理论与知识表示的数学框架 (I): 因素空间的公理化定义[J]. 北京师范大学学报: 自然科学版, 1996, 32(4): 470-475.
[107] 李洪兴. 因素空间理论与知识表示的数学框架 (Ⅻ)——描述架中概念的结构 (1)[J]. 模糊系统与数学, 1997, (2).
[108] Li H X, Wang P, Yen V C. Factor spaces theory and its applications to fuzzy information processing.(I). The basics of factor spaces[J]. Fuzzy Sets and Systems, 1998, 95(2): 147-160.
[109] Li H X, Yen V, Lee E. Factor space theory in fuzzy information processing: Composition of states of factors and multi-factorial decision making [J]. Computers & Mathematics with Applications, 2000, 39(1-2): 245-265.
[110] Li H X, Yen V, Lee E. Models of neurons based on factor space [J]Computers & Mathematics with Applications, 2000, 39(12): 91-100.
[111] Li H, Chen C P, Yen V C, et al. Factor spaces theory and its applications to fuzzy information processing: Two kinds of factor space canes[J]. Computers & Mathematics with Applications, 2000, 40(6): 835-843.
[112] Li H X, Chen C, Lee E. Factor space theory and fuzzy information processing: Fuzzy decision making based on the concepts of feedback extension[J]. Computers & Mathematics with Applications, 2000, 40(6-7) : 845-864.
[113] 李俊红, 曾文艺. 基于梯形模糊数的模糊最小二乘回归模型[J]. 系统工程理论与实践, 2015, 35(6): 1520-1527.
[114] 李哓忠,汪培庄,一个新是研究方向--模糊神经网络,科学(上海)1992, 44(5):39-40.
[115] 李哓忠,汪培庄,罗承忠. 模糊神经网络[C],贵阳:贵州科技出版社,1994.
[116] 凌卫青, 耿海鹏, 谢友柏. 产品性能因素描述构架的建立[J]. 计算机辅助设计与图形学学报, 2003, (2): 144-149.
[117] 刘海涛 王华东 汪培庄 郭嗣琮 包研科. 定量因素间关系样本培植理论.(待投).
[118] Liu H T, Li L, Wang P Z, Shi Y. Heterogeneous data preprocessing and scene analysis based on factor space theory (working paper).
[119] 刘文奇. 一般变权原理与多目标决策[J]. 系统工程理论与实践, 2000,3(3): 1–11.
[120] 刘玉铭. 因素空间藤和知识的分类表示[D]. 北京师范大学, 1995.
[121] 刘增良,刘有才.因素神经网络理论及实现策略研究.北京[C]:北师大出版社.
[122] 刘增良. 因素神经网络. 东方思维与模糊逻辑—纪念模糊集合论诞生50周年国际会议大会报告, 中国,大连,2015年8月.
[123] 刘云志,郭嗣琮,含弹性约束的多目标模糊线性规划求解[J]. 运筹与管理, 2013,(01):59-64.
[124] 陆键, 赵吉广等, 项乔君, 宋国森. 高等级公路养护质量综合评价模型[J]. 东南大学学报(自然科学版),2005,35(5):810-814.
[125] 罗承忠,模糊集引论(上) [M]. 北京:北京师范大学出版社,1993.
[126] 罗承忠,模糊集引论(下) [M]. 北京:北京师范大学出版社,1995.
[127] 鲁晨光,汪培庄,从'金鱼是鱼'谈语义信息及其价值[J],自然杂志,1992,15(4):265-269.
[128] 鲁晨光,基于模糊集理论的语义信息公式(特约报告),东方思维与模糊逻辑—纪念模糊集诞生五十周年国际会议,中国,大连。2015年8月.
[129] 米洪海, 闫广霞, 于新凯, 侯家玺. 基于因素空间的多层诊断识别问题的数学模型[J]. 河北工业大学学报, 2003, 32: 77-80.
[130] 聂茂林. 供应链合作伙伴选择的层次分析多因素决策[J]. 系统工程理论与实践, 2006,26(3): 25-32.
[131] 孙旭东,郭嗣琮,张蕾欣,模糊随机变量及其数字特征的结构元方法,模糊系统与数学,2013,(3):70-75.
[132] 谭彦华, 谷云东. 基于min 型表现外延的反馈外延外包络[J]. 北京师范大学学报(自然科学版), 2005, 41(5): 473-476.
[133] 王凯兴,郭嗣琮,模糊需求下的库存风险及最优库存决策[J],模糊系统与数学, 2010, (01):98-102.
[134] 汪华东,郭嗣琮,岳立柱,基于结构元理论的模糊多元线性回归模型,系统工程理论与实践,2014, 34(10):26-28.
[135] 汪华东,汪培庄,郭嗣琮,因素空间中改进的因素分析法[J].辽宁工程技术大学学报:自然科学版,2015, 34(4):539-544.
[136] 汪华东,郭嗣琮,刘海涛. 因素分析算法的改进[J]. 辽宁工程技术大学学报,2015,34(1):124-128.
[137] 汪华东,郭嗣琮. 基于因素空间反馈外延外包络的DFE决策[J]. 计算机工程与应用, 2015,51(15):148-152.
[138] 汪华东,郭嗣琮. 因素空间反馈外延包络及其改善[J]. 模糊系统与数学, 2015(1): 83-90.
[139] 王磊,郭嗣琮,线性模糊微分系统的同伦摄动法,计算机工程与应用,2012,(32):30-32.
[140] Wang P Z. Fuzzy contactibility and fuzzy variables, Fuzzy Sets and Systems, 1982, (8): 81-92.
[141] Wang P Z. A factor space approach to knowledge representation. Fuzzy Sets and Systems, 1990, (36): 113-124.
[142] Wang P Z. Fuzziness vs randomness, falling shadow theory, Bulletin sur les Sous Ensembles Flous et leurs Applicaions, 1991, (48).
[143] 汪培庄. 因素空间与概念描述[J]. 软件学报, 1992. 3(1):30-40.
[144] Wang P Z, Loe K F. Between mind and computer: fuzzy science and engineering[C]. Singapore:World scientific Publishing, 1994.
[145] Wang P Z, Li H X, Fuzzy Computing Systems and Fuzzy Computer[M], Beijing: Science Priss,1985.
[146] 汪培庄,张大志.思维的数学形式初探,高等应用数学学报, 1986, 1(1): 85-95.
[147] Wang P Z. Rules detecting and rules-data mutual enhancement based on factors space theory. Inter J Information Technology & Decision Making, 2002, 1(1): 73-90.
[148] 汪培庄. 概率论与模糊数学的双赢策略,见《模糊数学与优化(汪培庄文集)》北京,北师大出版社,2013,pp260-271.
[149] Wang P Z, Liu Z L, Shi Y, Guo S C. Factor space, the theoretical base of data science [J]. Ann. Data Science, 2014, 1(2): 233-251.
[150] 王攀, 冯帅, 张瑞. 混合目标系统求解中的方法集成与变权综合[J]. 系统工程与电子技术, 2008, 30(9): 1759-1763.
[151] 王晓玲. 素质教育评价中的变权综合方法[J]. 系统工程理论与实践,2000,4(4):136-140.
[152] 吴志雄, 屠梅曾, 冯嘉礼. 基于属性坐标的变权加权和模型[J]. 上海交通大学学报, 2006, 9(3): 1610-1614.
[153] 谢开贵, 周家启. 变权组合预测模型研究[J]. 系统工程理论与实践, 2000, 7:36-40.
[154] 杨巨文,何 峰,崔铁军, 等. 基于因素分析法的煤矿灾害安全性分析[J]. 中国安全生产科学技术, 2015, 11(4):84-89.
[155] 姚炳学, 李洪兴等. 局部变权的公理体系[J]. 系统工程理论与实践, 2000,1(1): 105–109.
[156] 于福生, 罗承忠. 在因素空间中建立诊断问题专家系统[C]. //电工数学进展(第六届全国电工数学学术年会论文集). 1997: 96-102.
[157] 于福生, 罗承忠. 粒子因素空间与智能诊断专家系统[C]. //第七届全国电工数学学术年会论文集. 1999: 24-27.
[158] 于福生,董克强,蔡瑞琼. 模糊信息粒子平台与时间序列概要分析[C]. 第十二届全国多值逻辑与模糊逻辑学术会议, 2010: 120-130.
[159] Fusheng Yu, Huang C F. Building Intelligent Information Systems in Factors space[J], 2002.
[160] 袁学海, 汪培庄. 因素空间和范畴[J]. 模糊系统与数学, 1995, (2): 25-33.
[161] 岳磊, 孙永刚, 史海波等. 基于因素空间的规则调度决策模型[J]. 信息与控制, 2010, (3): 302-307.
[162] 章玲, 周德群, 张佳春. 基于K- 加权模糊测度的变权多属性决策分析[J]. 应用科学学报, 2007, 25(4): 402-406.
[163] 张丽娟, 张艳芳, 赵宜宾, et al. 基于元胞自动机的智能疏散模型的仿真研究[J], 系统工程理论实践, 2015, 35(1): 247-253.
[164] Zhang H M. Introduction to an expert system shell – STIM [J]. Fuzzy Sets and Systems, 1990, 36(1):
167-180.
[165] 张倩,郭嗣琮,基于结构元理论的模糊合作博弈Owen联盟值,模糊系统与数学,2014,(1):152-157.
[166] 张小红,裴道武,代建华. 模糊数学与Rough集理论[M]. 北京:清华大学出版社,2013.
[167] 张友春, 魏强, 刘增良, 周颖,信息系统漏洞挖掘技术体系研究[J]. 通信学报, 2011, 32(2): 42-47.
[168] Zhang X, Sun Z, Zhang D, etc. High Prevalence of the metabolic syndrome in hypertensive rural Chinese women [J]. Acta Cardiol, 2008, 63(5): 591-598.
[169] Zhang X, Sun Z, Zhang D, etc., Prevalence and association with diabetes and obesity of lipid phenotypes among the hypertensive Chinese rural adults [J]. Heart & Lung, 2009, 38(1): 17-24.
[170] 张宇,包研科,邵良杉,基于几何轮廓相似度的多变量决策树.
[171] Zhang Y. Design and structure analysis of fuzzy controllers based on multi- factorial functions in factor spaces [J]. ICIC Express Letters, 2012, 6(10):2601-2609.
[172] 赵曼,崔铁军,基于因素分析法的开发区人才激励条件推理研究,商场现代化,2014,(21):118-121.
[173] 郑连清, 刘增良, 吴耀光. 战场网络战[C]. 北京:军事科学出版社, 2002.
[174] Zhong Y B, Li Z J. The Text Clustering Algorithm Based on Factor Space.
[175] 朱勇珍, 李洪兴. 状态变权的公理化体系和均衡函数的构造[J]. 系统工程理论与实践, 1999, 7(7): 116–118.