AI.框架理论.语义网.语言间距.孤单

刷个博客,转载自于科学网:AI.框架理论.语义网.语言间距.孤单

一:引言:

AI几乎是计算机科学家的梦想,自动化比计算机发展的要早的多。早期的自动化节省了大量人力,激发了人类懒惰的滋长和对自身进化缓慢的郁闷,有人希望自己创作的机器能够更智慧,可以省去自己动手操作的麻烦,把人本身....这是一个哲学问题了,至于源头,我已不清楚人生意义的一千种解释。

数学的独立让科学形式化,并使其找到了根本支撑—精确及可重现性。社会的发展依赖于科技是不争的事实,而知识的最终价值是其表现出来让人类接受并应用于生活实践。 这里出现了几个定义:知识,科技,数学,形式化。

1950年,数学家图灵写文章提出了著名的“图灵测试[2]

1950年10月,图灵又发表了另一篇题为“机器能思考吗”的论文,成为划时代之作。也正是这篇文章,为图灵赢得了“人工智能之父”的桂冠

数学家D.希尔伯特于20世纪初期建立证明论,证明论本质上是语法层面,是关于规则及语法的数学体系;

模型论研究形式语言与其解释(模型)之间的关系,也就是形式语言的语法与语义之间的关系。模型论本质上是语义层面,是关于解释的数学体系;

数学家哥德尔在20世纪出证明了关于证明论完备性的哥德尔完备性定理,关于模型论完备性的哥德尔不完备性定理;

科学和哲学:科学是语法,哲学是语义;科学面对的是整个世界,而哲学面对的是整个世界的意义。

这是前言,引出了数学,计算机,自动化,图灵测试。


二:总体哲学概念(源于马氏哲学:宏观):

   世界:与时间与空间联系的一切实体。至于关于时间和空间的元解释;

   物体:根据马氏哲学,物体是世界的组成部分,每一个部分,每一个实体(个体);

   自我:有了个体,便产生了外界,每一个个体称之为自我;

   联系:个体与世界,个体与物体之间的接触;  

   环境:与个体联系的一切组成了个体的环境;

   运动:联系导致物体间必不可少的相对性变化;

   表示:一种实体或者联系 用另外一种实体或者者联系 进行映射,映射的另一方被称为一方的表示;

   微观(一花一世界):

   至于最小的是什么,基本是什么,我们不知道,或许永远不会知道,那就从知道的说起吧。

量子力学认为量子态是微小存在的基本实体,这模糊了运动概念的概念让运动更加顺理成章。

   生命:至于意识是哪个层面,我们只能从自己的认识出发。从这个茫茫世界的一粒蓝色星球上,原始海洋诞生出早期的蛋白质分子。这些蛋白质分子有了一个现在听起来顺耳的名字-团聚体,这种小东西有了一项前所未有的特征:可以吸收特定物质,并进行分裂。这可以称得上是最早的“生命”。  

   生存:从第一个生命出现之初,就产生了“生存”的概念,从个体开始,到个体结束;

   进化:开放系统的熵值是可以增加的。白噪音作为终极混沌,并不是冰冷的死寂,动力系统的无序必然导致局部有序,这就导致了“进化”。团聚体不断变化,团聚体“个体”不断复杂,分化,最终“进化”,以适应性最终更复杂或者更简单的个体生存下来。

   神经系统:进化的过程中,个体与环境的交互源自于一种称作“反射”的特定联系;进化促使个体非条件反射有了控制系统--神经系统;

   意识:非条件反射的控制系统, 不知从何时得到了上帝的苹果,延伸出条件反射这个能在系统内部体现外部联系的过程。从系统内部体现外部世界的联系,并表示出一定的相关性,这就是“意识”。

   概念:意识产生后,以系统内部的变化来表示外部的实体及联系,在每一个实体的控制系统内部,都尽可能的体现其他个体并表征其不同的系统状态,这就产生了 与特定外界实体联系 并能对其在系统内部进行表示的 “概念”或者称之为“描述”;    

   语言:相似个体间的控制系统或许大致相同,但是由于与外界的联系方式不同,导致在其系统内部的表征“概念”也不相同;个体对外界的描述大量增加,其内部区分,个体之间概念传达及表现逐渐促使高效化,这就促使了统一标准的出现——语言;语言给了一个相似性的框架,语言形成个体系统内部概念和外部实体之间的桥梁;

   语言间距:不同物种及相同物种的不同族群持有不同的语言,而所要描述的环境总有重叠的部分,描述这些重叠部分的语言不相同,这就形成了语言间距;

   翻译:因为其生存的世界有所重叠,持有不同语言的物种需要交流,这就产生了一种语言到另外一种语言的转换,即是翻译。翻译是一种语言到一种语言的映射,其映射表象的背后是联系其各自语言描述的同一个实体。同样,对于个体之间,对于相同物体的表征——概念也不相同,从概念到语言的转化,也视为一种翻译,这种翻译由个体完成。

   知识:系列的反射组成行为,延伸出 场景,脚本,越来越多的事情发生,越来越复杂的情景产生,越来越多的概念产生,最后,想要生存,在所有的物种内部,都诞生了称之为“知识”这种概念,在自然界最复杂的物种之间更为重要;

   知识表达:问题,解决方法,智慧...

   完备性:由于完备性的约束,至于怎样定义智能,称为一个哲学问题;而定义了智能,如何实现智能,这是个科学问题

   AI:人工智能  由人制造的机器产生类似于人的智慧。


三:十大哲学难题

   1.缸中之脑  这个是不必解决的

   2.会说话的中文屋子   这个给了图灵的人工智能测试一个简要的解释,这个论题最后会得出,AI是一定会实现的

   3.空地上的奶牛问题   这个是关于知识获取途径的论题


四:图灵测试及图灵机(人工智能的定义

 (1):“图灵测试”:测试是让人类考官通过键盘向一个人和一个机器发问,这个考官不知道他问的是人还是机器。如果在经过一定时间的提问以后,这位人类考官不能确定谁是人谁是机器,那这个机器就有智力了。

   这是一个会说话的中文屋子

  (2):图灵机:“图灵机”想象使用一条无限长度的纸带子,带子上划分成许多格子。如果格里画条线,就代表“1”;空白的格子,则代表“0”。想象这个“计算机”还具有读写功能:既可以从带子上读出信息,也可以往带子上写信息。计算机仅有的运算功能是:每把纸带子向前移动一格,就把“1”变成“0”,或者把“0”变成“1”。“0”和“1”代表着在解决某个特定数学问题中的运算步骤。“图灵机”能够识别运算过程中每一步,并且能够按部就班地执行一系列的运算,直到获得最终答案。

   “图灵机”是一个虚拟的“计算机”,完全忽略硬件状态,考虑的焦点是逻辑结构。图灵在他那篇著名的文章里,还进一步设计出被人们称为“万能图灵机”的模型,它可以模拟其他任何一台解决某个特定数学问题的“图灵机”的工作状态。他甚至还想象在带子上存储数据和程序。“万能图灵机”实际上就是现代通用计算机的最原始的模型。

  (3):冯.诺依曼 机器手:这种类似于自然界最原始团聚体的机械结构,是行为智能化的完美表演;

   冯.诺依曼 提出了基于程序存储原理的计算机框架理论,其数学逻辑本质仍然是图灵机的一种形式具体化。随后随着集成电路的发展,计算机发展并普及开来,形式多样化,外壳让人目不暇接,而支撑其所有表象的最后归属仍然是 1001001100....的状态改变,有限状态机——图灵机的模型。


五:从问题到执行(层状模型)

 执行间距:计算机从诞生之初,即是为了解决人类的各种问题。最初的科学计算,由科学家进行编写代码,勤奋的科学家用1001001100...这种计算机能“理解”的“语言”,把我们的数学问题在他们的脑子里转换,再进行手动输入。这是最初的人与计算机机器的语言间距,这种语言间距也是执行间距,那么计算机科学家是 两种语言的“翻译”。

   程序:最初驱使计算机执行的1001001100...,每一个片段的机器语言实体,即是程序;

   计算机语言:1001001100...是最初的计算机语言,被称为机器语言,也是唯一机器能“理解”--识别的语言;  汇编语言:对于特定的计算机,计算机设计者发现可以设计通用的翻译器,用翻译器可以识别的字符来编写程序,利用翻译器把程序翻译成1001001100...,这种对于特定机器和绑定翻译器的 字符程序即是汇编语言;  然后执行间距被缩小,被划分出“问题间距”,这种间距是从问题描述到汇编语言的转换。

   软硬件一体化和软硬件分离:这是一个哲学问题。没有os的计算机也是计算机,没有指令集的CPU也是CPU,这是一个哲学问题。这里延伸出软件硬化和硬件软化。

   问题域:随着计算机的发展,计算机不仅可以解决直觉上的科学计算问题,最终可以转化为计算的问题都可以由计算机解决,这就延伸了本来存在的问题域;问题域从科学求解延伸到很多方面。

   高级语言:汇编语言本质上仍然是机器语言的另外一种表示,编程人员针对不同的机器需要记忆不同的翻译字典,科学家希望出现一种通用的程序设计语言,可以只记忆一种字典,便可以方便的把问题翻译成程序,根据此目的,最终C语言确定了其在编译语言界的王者地位。

   说明间距:问题解决方法应对于现实问题,在自然语言的表示,最终要翻译成高级语言的程序,这个从自然语言描述(算法)到程序实现之间的距离即是说明间距;执行间距可以由翻译器,编译器来填补,而说明间距只能由人来填补,把人的智慧最终从最初的01编程中分离出来。但这并没有把人的智慧用在最有用的地方——只解决问题,而不是同时还要进行翻译。

   智慧空间:分析问题,寻找解决方法,给出方案;整个过程组成了智慧空间。由算法到程序的转换在严格意义上是不属于智慧空间;但程序翻译人工优化或许是个例外。

   人工智能:现在的机器一般只能解决执行域问题转化。机器及其程序系统可以深入智慧空间,识别问题,分析问题,寻找解决方法,给出方案,并最后执行,就具有了智能。

   人工生命:机器拥有了人工智能,便可以称之为人工机器生命。


六:问题域—框架理论

   语义网:生命存在是一个解决问题的过程,整个生存空间嵌入了一个广泛的问题域。对问题域的形式化描述,需要一个系统的表示。世界各种实体具有联系,知识系统希望实体概念化后的表征也能对联系进行表征,完成对整个世界模型到意识模型的映射。作为现实世界的描述,类似于映像,错综复杂的语义表征及语义联系表征形成了语义网。

   框架(概念表征):个体之间是不能绝对相互理解的,我们总是不能理解对方的感受,而知音才显得如此珍贵。单个意识是无法完成整个世界模型的描述的,意识与意识之间因为生存需要也需要交流,其持有概念却不能相同,而形式化的语言是消歧义的重要中间元素,即使不能极为精确的描述概念,却构建了一个概念近似转达的工具。交流者必须认可这个工具,并按照其规则来进行交流并习得知识,通过这个工具来共同构建普遍认可的概念网络。整个规则系统组成了语言及语义表示的框架,框架是共同遵守的语言表征模型,是个体融入和交流必须认可的框。这个框它有多好便有多坏,任凭你怎么理解。

   自然实体Vs.概念实体:盲人摸象的故事。把自然实体及自然联系转化为系统内部概念实体及概念联系,即对其表征。这是个循序渐进的过程,或许永远不会完成,或许只需要完成部分即可以。

   面向对象的设计语言:实体概念化,这是我们认识世界的方法。我们希望计算机能进入问题域,也希望建立一个标准的概念程序化的模型,这就是面向对象的设计语言和对应的标准建类体系;面向对象的语言仿照人类的概念构建模型来构建程序,来正则化从问题域到说明域的转化,构建了问题域的初步构建方法。

   框架(对象标准化):面向对象的程序设计模仿了人类的认识思维,也模仿了认识的弊端,即个体的认识各不相同。计算机科学家希望有一种类似于概念网络来表征实体的方式来构建程序,以应对程序复杂化,为程序设计者和程序之间的信息传递建立一个标准,并使其具有普适性。为解决各种对象的建立时的不统一,为消歧义,面对面向对象程序设计的约束框架应运而生,即标准建类模型;标准建类模型给出了用程序语言来构建类的规则指导,按照此模型构建程序具有通用的可移植性,并在对象的理解上趋于统一。

   槽和对象:标准建类模型给出了建立对象的指导规则,也重复了盲人摸象的故事,即是穷尽所能,我们有时仍不能对实体或者概念用程序类进行描述。对每一个属性和方法,我们定义了槽 这个概念。这是个进化,却又引来了新的问题,关于实体及联系的定义问题,这已经不是语言模型所能解决的,因此这个问题的解决或许能给概念模型的解决提供一些启示。

   计算机理解:计算机进入问题域的前提是计算机必须能理解问题,对问题进行计算机系统内部的状态表征。统一化的对象和槽的概念 用计算机语言来模拟人类意识概念,这给出了计算机理解人类问题的条件。一切事物和联系都是实体的概念在程序设计时被明确的反映出来,我们利用计算机的语言模型来对程序进行解释,方法和联系是实体,人类思维过程也对应一个过程实体,也可以利用程序语言表现出来,这样从底层上解决了“理解”这个概念的具体化。

   问题域:从人认识可理解的问题域,到计算机可理解的问题域,在语义网、面向对象设计、标准建类声明等一些列的约束框架建立之后,完成了一个看似可以实现的映射。计算机得以进入人认知的问题域,经过自身系统层层转换,提出解决方法——解决问题——给出答案,每一个过程都可以通过映射返回到人可理解的问题域,这样 计算机就“看起来”有了智能;

   专家系统:在普遍的智能没有实现之前,专家发现基于规则和专家知识的程序体可以解决特定领域的问题 或者说面对特定领域的问题 可以用基于专家专家知识和规则的程序实现,并且整个过程都是对于系统设计者来说是透明的,由此建立了面对特定问题的推理程序——专家系统。专家系统是确定的,从另外一个方面给出了计算机智能化的提示。

   人工智能:我们所提到的人工智能,包括图灵测试所谓的人工智能,便是类似于人的智能。从解决了计算机可理解的语义网和框架之后,人工智能看起来有了希望。计算机嵌入了类似于人的概念框架的语义网,可以开始理解类似人类问题,进入智慧空间,至于以后怎么解决问题,希望可以看到它的发展。

   

七:语义网

   机器学习:机器学习陷入分类的漩涡,陷入模式好坏的纷争之中。特征——模式——分类,所谓决策,正如触发器一样,充分的表示了智能化,但到底是不是终极事实我还是没有办法得知。或许逐层的分类,陷入模式有助于决策,能给最终AI的实现由一点提示。

   分类系统:生物学界典型的一种生物知识表示模型为卡尔.林奈的生物分类系统,当然林奈先生的分类系统不仅是标注生物属性那么简单,分类树涵盖了更多的信息,包括生物可能的进化信息以及亲缘关系等等。这是最基础最容易理解的语义网,它的组成仅仅是生物实体的概念表征,这个模型给了语义网一个很好的提示,怎样深刻的描述联系?联系怎样正确的描述联系?联系表示存在的意义?

   语义框架:相对于自然分类系统,描述所有必需描述的实体及联系构建的语义网也有了分层模型,分别对于实体和联系的语义网,相对于问题空间的语义网,相对于模式空间的语义网。

   计算机语义网:语义网(Semantic Web)(转自于wiki)是由万维网联盟蒂姆·伯纳斯-李(Tim Berners-Lee)在1998年提出的一个概念,它的核心是:通过给万维网上的文档(如: HTML)添加能够被计算机所理解的语义(Meta data),从而使整个互联网成为一个通用的信息交换媒介。    

    英文语义网WordNet的开发有两个目的:1. 它既是一个字典,又是一个辞典,它比单纯的辞典或词典都更加易于使用。2. 支持自动的文本分析以及人工智能应用。(这是它的具体功能应用,已不在讨论范围)。

   知识表示:语言模型,语义网作为框架已经足够好,至于有没有更好的方式还有待探讨。

   象形文字和字母文字:从原始意义上说,象形文字更能给自然实体更相似的描述,其本质是自然实体的二维图像映射,最终会转化为拓扑模型或者点阵模型存储在人的记忆组织;字母文字则是遵循了文法规则的字符串模型。图像文字由于其目标映射空间狭窄,必然会融合字母文字类似的文法规则来扩充其描述范围。从这一点来说,汉子和字母语言其属性有很大的区别。

   ImageNet:回归视觉,环境实体被自然主体识别是通过三维空间到二维空间的映射。对于双目个体,个体根据先验知识对获得的双目图像进行识别环境内物体。在机器视觉领域,由于环境条件和获取图像条件千变万化,对同一个体获得的图像也不相同,而且对于同一类别的不同个体的图像也有失偏颇,各种各样的数据集层出不清,在快速发展的视觉领域缺乏一个严肃的数据判定标准,所以这就催生了 Pascal VOC  Challenge  ;底层数据和高层视觉表达之间的联系至今难以探知,在图像表示方面存在着一个难以逾越的语义鸿沟,因此作为标准数据集的ImageNet视图架起标准标注的桥梁,期待建立一个类似于语义网的视觉图库,作为图像目标识别的框架存在;


八:框架理论:

框架的构成:自然分类系统是生物学家及学习者认识自然生物的很好的框架...

          ....................................................

          .....................................................


十、沟通的价值

社会性是种族发展进化的前提,因此沟通具有优先存在的价值。语义的转换和语义的完备性早就了个体的孤单,你所追逐的AI就是你自己的完备性,这条路永无尽头。

.................................................................................


注释Reference


[1]:ImageNet解释:(以下作为注释直接载入正文:

What is ImageNet?

ImageNet is an image dataset organized according to the WordNet hierarchy. Each meaningful concept in WordNet, possibly described by multiple words or word phrases, is called a "synonym set" or "synset". There are more than 100,000 synsets in WordNet, majority of them are nouns (80,000+). In ImageNet, we aim to provide on average 1000 images to illustrate each synset. Images of each concept are quality-controlled and human-annotated. In its completion, we hope ImageNet will offer tens of millions of cleanly sorted images for most of the concepts in the WordNet hierarchy.

Why ImageNet?

The ImageNet project is inspired by a growing sentiment in the image and vision research field – the need for more data. Ever since the birth of the digital era and the availability of web-scale data exchanges, researchers in these fields have been working hard to design more and more sophisticated algorithms to index, retrieve, organize and annotate multimedia data. But good research needs good resource. To tackle these problem in large-scale (think of your growing personal collection of digital images, or videos, or a commercial web search engine’s database), it would be tremendously helpful to researchers if there exists a large-scale image database. This is the motivation for us to put together ImageNet. We hope it will become a useful resource to our research community, as well as anyone whose research and education would benefit from using a large image database.

Who uses ImageNet?

We envision ImageNet as a useful resource to researchers in the academic world, as well as educators around the world.

Does ImageNet own the images? Can I download the images?

No, ImageNet does not own the copyright of the images. ImageNet only provides thumbnails and URLs of images, in a way similar to what image search engines do. In other words, ImageNet compiles an accurate list of web images for each synset of WordNet. For researchers and educators who wish to use the images for non-commercial research


[2]:PascalVocChallenge链接

Introduction

The goal of this challenge is to recognize objects from a number of visual object classes in realistic scenes (i.e. not pre-segmented objects). It is fundamentally a supervised learning learning problem in that a training set of labelled images is provided. The twenty object classes that have been selected are:

  • Person: person

  • Animal: bird, cat, cow, dog, horse, sheep

  • Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train

  • Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

There will be three main competitions: classification, detection, and segmentation; and a single smaller scale "taster" competition: person layout:


[3]:语义鸿沟semantic gap):

   基于内容的图像查询中,就存在一个底层特征和上层理解之间的差异(这也就是著名的semantic gap);这是层次表示理论的症结所在,主要的方法应该是寻找合适的分层模型,找准合适的层接借口及映射词典;

   semantic gap是普遍存在的,从高层到底层,不同系统之间的语义交流必须满足于一定的框架;如果我们拘泥于如何直接使用底层数据来表征图像语义,这类似于我们企图利用所有的神经递质状态来描述概念,这个鸿沟会一直存在。


[4]:框架理论(Framing Theory):

定义可分为条和框架。条是指活动的顺序,框架是指用来界定条的组织类型。他同时认为框架是人们将社会真实转换为主观思想的重要凭据,也就是人们或组织对事件的主观解释与思考结构。

....................................)

posted @ 2017-03-18 17:09  wishchin  阅读(214)  评论(0编辑  收藏  举报