7.18组会

一些问题

  1. 能不能抽样检测精度,有些关系实例比较多,全部遍历可能跑不出来。

    =

    n个三元组

    n个实体

    讨论结果:全部检测

  2. rdf:type,rdf:subClassof,rdf:first 这类谓词需不需要判断性质。这类谓词实例是不是应该全部保留。

    讨论结果:需要判断

  3. 传递的判断问题

    传递是这样的
    如果A R B, B R C,就一定有A R C
    (A R B),(B R C) ==> (A R C)
    按离散数学学的,如果(p ==> q)里面p为假,整个式子(p ==> q)是为真的
    但是如果前置条件都不可能满足,是不是不算传递我是说只有A R B,没有B R C
    比如capital,中国的首都是北京,北京根本没有首都,按照逻辑定义来判断,它capital这个属性肯定是传递的的,因为p总是为假,但是把这个定为传递没有什么意义感觉。
    

    讨论结果:确实没有意义,capital这种应该定位非传递

  4. 所以不确定我这个判断方法是不是有问题,我是说,我通过判断range中是否有可以作为domain的元素来进行排除。

    讨论结果:没有问题

  5. 确实事实,有的实际存在的三元组,可能没有记录在数据集里面

    比如海淀区在北京,北京在中国,
    按道理海淀区就在中国,但是数据集不一定记录了这个数据,所以不知道怎么去测量精度
    我是说有一些可能实际存在但是并没有被记录的事实。
    
    或者说伴侣属性
    按语义A是B的伴侣,B就是A的伴侣,
    但是他可能只记录了(A 伴侣 B),没有记录(B 伴侣 A)
    

    这种语义上必定是某种性质,但是因为数据集记录的缺失,导致性质精度差,不知道怎么判断这种情况下关系的性质,我是说是不是语义上一定符合,就可以标记它具有这种性质,还是一定要它达到一定的阈值的精度才可以标记。或者说如果一个关系精度达不到,但是语义上明显符合一种性质,应不应该标记它具有这种性质。

    讨论结果:不能确定应该怎么标记,确定不了就先不确定

互逆性判断:R1,R2是互逆,就说明R1的domain和range要和R2的range和domain相同

子关系判断:R1是R2的子关系,就说明R2的domian和range至少要包含R1的domain和range

等价性:R1和R2的domain和range完全相同

分离性:R1和R2的domain和range完全相同

posted @ 2023-07-18 17:52  20373467dyt  阅读(14)  评论(0编辑  收藏  举报