《语义网基础教程》笔记
一章 语义网概述
一:WWW或者说是传统SE得到问题
1. 网络信息剧增;
2. 搜索结果汇合太多相关和非相关信息;
3. 检索结果非常依赖于搜索词;
4. 检索结果的呈现,只能给出网页;如果信息存在于多个网页就需要用户自行组织了;
二:基于人工智能和计算语言学的技术PK语义网运动
三:语义网技术
1. 显示的元数据:XML和RDF(Resource Description Framework)
2. 本体:XML Schema 是一种定义XML文档结构的语言,RDF Schema是一种刻画RDF资源的属性和类的词汇描述语言。OWL是一个更丰富的词汇描述语言。
3. 语义网代理使用技术:
a) 使用元数据从网络资源识别和提取信息;
b) 使用本体辅助网络资源,解释检索到的信息,并与其他代理进行交流;
c) 用逻辑代理检索到的信息并推导结论;
二章 XML
一:XML
1. HTML不包含结构信息;XML的内容和格式是分开的;
2. 处理指令(Processing Instruction, pi)提供一种向处理元素的应用传递信息的机制;处理指令提供了一种在另外的说明行表示中增加过程性处理的可能;
二:XML Schema
1. 它是另一种结构化表示XML信息的方法;
2. XML的XML
三:命令空间:消除二义性
四:XML文档的寻址和查询
1. XPath是一种对XML文档的组件(parts)进行寻址的语言;
2. 示例
a) /library/author
b) //author
c) /library/@location
d) //book/@title=”AI” 寻找book下所有title为Ai的属性
e) //book[@title=”AI” 寻找所有title为Ai的book
f) //author[1]
g) //author[1]/book[last()]
h) //book[not @title]
三章 RDF
一:RDF简介
1. RDF由一写了陈述(statement)即“对象-属性-值”三元组(object-attribute-value triple)组成;
2. RDF是领域独立的,RDF Schema定义RDF数据模型所使用的词汇(vocabulary);
3. 通过对特定的语法符号赋予语义,可以用RDF/RDFS对特定的领域建模;
二:RDF的基本思想
1. RDF的基本概念是资源、属性和陈述;
2. 每个资源都有一个URI;
3. 属性是一类特殊的资源,描述资源之间的关系;
4. 陈述用于描述资源所具有的属性;(对象-属性-值 三元组);
三:RDF Schema的基本思想
1. 类(rdf:type)和属性
2. 类层次结构和继承
3. 属性层次结构(“由…讲授”是“参与”的子属性)
4. RDF与RDFS层次
四:RDF Schema语言
1. 核心类
a) rdfs:Resource
b) rdfs:Class
c) rdfs:Literal
d) rdf:Property
e) rdf:Statement
2. 定义关系的核心属性
a) rdf:type
b) rdfs:subClassOf
c) rdfs:subPropertyOf
3. 约束属性的核心属性
a) rdfs:domain
b) rdfs:range
c) rdfs:ConstraintResource
d) rdfs:ConstraintProperty
4. 具体化的常用属性
a) rdf:subject 把一个具体化的陈述映射为它的主语
b) rdf:predicate 把一个具体化的陈述映射为它的谓语
c) rdf:object 把一个具体化的陈述映射为它的宾语
5. 容器类
a) rdf:Bag
b) rdf:Seq
c) rdf:Alt
d) rdf:Container
6. 工具属性
a) rdfs:seeAlso 把资源和解释对它的另一个资源联系起来
b) rdfs:isDefinedby
c) rdfs:comment
d) rdfs:label
五:RDF和RDF Schema的公理语义
六:RDF和RDFS的直接推理系统
七:使用RQL查询
四章 OWL(网络本体语言)
一:引言
1. 本体语言用于对领域模型进行显示的形式化描述。其主要需求是:良定义语法,高效率的推理支持,形式语义,充分的表达能力和表达的方便性。
2. 三个OWL子语言
a) OWL Full:使用OWL的所有原语。
b) OWL DL:不能直接与RDF兼容
c) OWL Lite: 对OWL DL的构造施加了进一步的限制;
注:OWL Full的完全实现貌似是不可能的。
二:OWL
1. 头部 owl:Ontology, owl:imports
2. 类元素 owl:Class, owl:disjointWith, owl:equivalentClass
3. 属性元素 对象属性;数据类型属性;
4. 属性约束
三:未来扩展
1. 模块与导入
2. 默认值
3. 封闭世界假设
a) 开放世界假设:不能仅根据无法证明一个句子为假而断定它为真;
b) 封闭世界假设:只要无法证明一个句子为假,则断定该语句为真;
4. 唯一名假设
5. 过程附加
6. 属性链接规则
五章 逻辑和推理:规则***
1. 谓词逻辑
2. Horn逻辑是谓词逻辑的一个存在高效率推理的子集。它与谓词逻辑的另一个子集描述逻辑是正交的。
3:Horn逻辑是单调规则的基础
4.非单调规则在信息不安全的情况下是有用的。这些规则可以再相反的证据面前失效。
5. 优先序用来解决非单调规则之前的冲突
6. 可以再类XML语言中简洁地表达规则
六章 应用
横行信息产品;数据整合;技能寻获;智囊门户网站;在线学习;WEB服务;多媒体收藏索引;在线采购和设备可共用性;
七章 本体工程
一:手工构建本体
1. 确定范围
2. 考虑复用
3. 列举术语
4. 定义分类
5. 定义属性
6. 定义侧面
7. 定义实例
8. 检查异常
二:复用现成本体
1. 专家知识汇编
2. 整合词汇表
3. 高层本体
4. 主题层次体系
5. 语言学资源
6. 本体图书馆
三:使用半自动化方法
1. 使用机器学习技术
a) 聚类
b) 本体递增更新
c) 辅助语义工程师
d) 改进大规模的自然语言本体
e) 单纯(领域)本体学习
2. 潜在的可用算法
a) 命题规则学习算法学习关联规则或其他形式的属性-值规则
b) 贝叶斯学习。基于贝叶斯定理,在训练实例属性条件独立的假定下产生概率化属性-值规则
c) 一阶逻辑规则学习归纳出称为一阶Horn子句的含变量的规则
d) 聚类算法将实例按照相似度或两个实例的属性值之前的距离测量聚集成组
四:On-To-Knowledge语义网体系结构
1. 知识获取
2. 知识存储
3. 知识维护
4. 知识使用
5. 技术可共用性
附:未来预测
1. 本体从何而来?WordNet,NCIBI癌症本体。手工构建、机器学习技术、自然语言分析或借鉴其他资源自动生成;
2. 语义标记从何而来?基于自然语言和借鉴其他资源技术的文档分析方法。
3. 工具从何而来?
怎样处理大量本体?(基于协商代理、机器学习或语言学分析)