科学知识图谱绘制方法、步骤及工具

  • 1.知识图谱的起源与发展
  • 2.知识图谱的绘制方法
    • 2.1 文献计量方法
    • 2.2 统计分析方法
  • 3.知识图谱绘制的步骤
  • 4.知识图谱绘制的工具

科学知识图谱(简称知识图谱)是现实科学知识发展进程与结构关系的一种图形[1]。其作用是使研究者对学科结构、研究内容、学科关系和研究热点有清晰的把握,并可预测学科发展前沿和趋势。但在当前科研数据总量庞大、增长快速、信息含量低、数据种类多样[2]的背景下,传统的知识图谱绘制方法、步骤和工具已经难以应对,急切需要针对大数据环境的科学知识图谱的绘制的方法及其关键技术研究。

1. 知识图谱的起源与发展

科学知识图谱以科学知识为计量研究对象,因此属于科学计量学的范畴。科学知识图谱的研究最早可以追述到普赖斯开创科学计量学[3]之时。当时普赖斯在数据方程式来表达科学发展规律的基础上,以曲线形式讲科学发展规律绘制为二维图形是并形成了最初的科学知识图谱[4]。

科学知识图谱的另一个演化前身是科学知识地图。科学知识地图是一个以二维或者三维空间表现出来的地形和人类活动以及相关特征的地理学概念,而科学知识图谱是对其的拓展和延伸。它是一个图像以一定空间形式在一定时间范围内展现与变化的系统概念,比知识地图更能揭示知识间的关系和进化规律。

现代科学知识图谱概念正式提出是2003年在Arthur M. Sackler学术研讨会上。而Shiffrin[5],Borner[6]和陈超美[7]等人的贡献奠定了现代科学知识图谱(Mapping Science)的研究基础,之后对其相关研究就如雨后春笋般涌现。我国对于科学知识图谱的研究是由刘则渊等人[8]于2004年率先引入。

2. 知识图谱的绘制方法

知识图谱的绘制需要综合运用文献计量、统计分析、数据挖掘、信息可视化、社会网络分析和信息分析等领域的研究方法,大致可分为文献计量方法、统计分析方法、数据挖掘方法三大类方法(如图1所示)。但目前为止还未有对这些方法实现并行化算法实现方面的研究。

知识图谱绘制方法

2.1 文献计量方法

科学知识图谱属于科学计量学,因此必然文献计量学的方法,主要包括:

  • 引文分析方法

    引文分析是利用各种数学、统计学方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用与被引用现象进行分析,以便揭示其数量特征和内在规律的一种文献计量分析方法[9]。引文分析大致有三种类型[10]:

  1. 引文数量研究,主要用于对科学家、出版物和科学机构的定性和定量评估
  2. 引文结构(网状或链状关系)研究,主要用于揭示科学的发展与联系。
  3. 引文主题(相关性)研究,主要用于揭示科学的结构以及进行信息检索。
  • 共引分析方法。

    共引分析是1973年斯莫尔等人就提出把文献共引分析作为计量文献之间关系的一种方法。共引(co-citation)又称被共引,即两篇文献同时被一篇或多篇文献说引用,同时把共同引用这两篇文献的文献数称为共引强度(或共引频率),共引强度越大这两篇文献关系越密切。在共引图谱中,点表示文献,当相关文献对的共被引强度等于或大于某个阈值时,两点就被连接起来。共引分析多用于作者共引分析和期刊共引分析。

  • 耦合分析方法

与共引分析相对应的是耦合分析。几篇文献具有相同的参考文献就形成了文献耦合关系。具有相同参考文献的文献数称为耦合强度。耦合分析包括文献耦合分析、期刊耦合分析、作者耦合分析、学科耦合分析等,分别表示文献、期刊、作者、学科之间具有主题和内容相似性,可做为相关文献分析、作者群体分析和科学演化分析等的依据。

  • 词频分析方法

词频分析是是齐普夫定律为理论基础进行文献内容分析方法。词频分析可分为标题关键词词频分析、摘要词频分析、内容词频分析、引文词频分析和混合词频分析等。词频分析大量应用于科学前沿主题领域和发展趋势等研究。

  • 共词分析

共词分析属于内容分析法的一种。它的原理主要是对一组词两两统计它们在同一篇文献中出现的次数, 以此为基础对这些词进行聚类分析, 生成共词文献簇, 进而分析这些词所代表的学科和主题的结构变化。利用共词分析法及其相关的可视化方法可以进行深入的主题分析, 系统而直观地了解学科结构和发展状况, 并进行学科发展预测。

  • 链接分析方法

链接分析,利用图计算、拓扑学和文献计量学等方法,对网络连接文档、自身属性、连接对象、连接网络等进行分析。链接分析涉及文档包括:页面、目录、域名和站点。在理论上,连接分析与文献计量学中的引文分析有高度的相似[11]。

链接分析运用拓扑学知识通过分析链接网络来研究网络结构,结合社会网络分析可以分析研究和绘制网络信息知识图谱,展示网络信息、知识分布结构和演化规律等。

2.2 统计分析方法

科学知识图谱构建实用的统计分析方法主要是多元统计分析[12]。多元统计分析是经典统计学的分支,在多个对象或指标相互关联的情况下分析其统计规律。“维度降低技术”是多元统计分析的一个特征,从几何学看这个过程是讲高维空间的目标投影到低维空间。主要的其中包括:

  • 因子分析(主成分分析)

    因子分析是用少数几个因子来描述许多指标之间的关系,即将较密切的几个变量归为同一类,每一类变量成为一个因子,以较少的几个因子来反应原资料的大部分信息。

  • 多维尺度分析(MDS)

    通过低维空间展示作者(文献)之间联系,并利用平面距离来反映作者(文献)之间的相似度。多维尺度分析的图形显示结果更加直观和形象,因子分析则更容易确定各个学术群体的边界和数目,因此需要同时借助因子分析的结果, 进行知识图谱的绘制。

  • 数据挖掘方法

    数据挖掘是指从大量的数据中通过算法提取、挖掘未知的、有价值的模式或规律等知识的复杂过程。科学知识图谱的绘制使用了很多数据挖掘方法,常用的方法有聚类分析、数据可视化和社会网络分析等。

(1) 聚类分析

聚类分析将物理或抽象的对象集合分成相似的对象类的过程。簇是数据对象的集合,同一个簇中的对象彼此相似,而不同的簇彼此相异[13]。文献聚类分析是聚类分析技术在引文分析中的具体应用。处理方法是将文献通过分词、去停词等方法转化为词向量,并将每个词条赋予不同的权重,这样一篇文献就可以由词条权重值组成的特征向量来表示,所有文献将组成了特征向量空间模型,在该模型中使用聚类分析技术进行引文分析。

(2) 数据可视化

数据可视化,也成为信息可视化是指将抽象数据用图形图像等可视化形式表示出来,以利于分析数据、发现规律和支持决策。常用的可视化算法有:

  • 自组织特征映射网络SOM(Self-organizaing Feature Map)是一种基于神经网络的算法,它通过把高维数据映射到低维空间进行聚类,并保持一定的拓扑有序性。

  • 寻径网络图谱PFNET(PathFinder Network)是对不同的概念或实体间联系的相似或差异程度进行评估,应用图论中原理和方法生成的一类特殊的网状模型。

(3) 社会网络分析

社会网络分析[14](Social Network Analysis)也称为结构分析,是将社会结构界定为一个网格,这个网格由成员之间的联系进行连接。社会网络分析聚焦于成员之间的联系而非个体特征,并把共同体视为“个体的共同体”,即视为人们在日常生活中所建立、维护并应用的个人关系的网络。社会网络分析方法被证明可以成功的研究科学合作网络和互联网络所得到的可视化网络,并被用于展示科学计量学的合作网络结构与发展。

3.知识图谱绘制的步骤

科学知识图谱绘制过程可分为8个步骤即:

  1. 样本数据检索(对期刊数据WOS、Science Direct或网络数据库Google Scholar、CitSeer等)
  2. 数据预处理(分词、去停用词、去重、勘误等)
  3. 选择知识单元(作者、关键词、机构、期刊和文献)
  4. 构建单元关系(引文分析、共现分析、共引分析、耦合分析、词频分析等)
  5. 数据标准化(Cosine、Jaccard、Equivalence、Association Strength等)
  6. 数据分析(因子分析、多维尺度分析、自组织映射图、寻径网络图谱、聚类分析和潜在语义分析等)7知识可视化(几何图、主题河图、星团图、冲积图、地形图等);8图谱解读(历时分析、突变分析、空间分析、网络分析、地理分布、浏览查询、放大缩小、过滤关联等)

知识图谱绘制
传统知识图谱绘制过程

目前这8个步骤还都是针对中小型数据集,而且步骤之间多以手工过渡为主,缺少对海量文献数据处理过程和全自动完成知识图谱绘制方面的研究。

4. 知识图谱绘制的工具

  • SPSS: 大型统计分析软件,商用软件。具有完整的数据输入、编辑、统计分析、报表、图形绘制等功能。常用于多元统计分析、数据挖掘和数据可视化。

  • Bibexcel: 瑞典科学计量学家Persoon开发的科学计量学软件,用于科学研究免费软件。具有文献计量分析、引文分析、共引分析、耦合分析、聚类分析和数据可视化等功能。可用于分析ISI的SCI、SSCI和A&HCI文献数据库。

  • HistCite: Eugene Garfield等人于2001年开发的科学文献引文链接分析和可视化系统,免费软件。可对ISI的SCI、SSCI和SA&HCI等文献数据库的引文数据进行计量分析,生成文献、作者和期刊的引文矩阵和实时动态引文编年图。直观的反映文献之间的引用关系、主题的宗谱关系、作者历史传承关系、科学知识发展演进等。

  • CiteSpace: 陈超美博士开发的专门用于科学知识图谱绘制的免费软件。国内使用最多知识图谱绘制软件。可用于追踪研究领域热点和发展趋势,了解研究领域的研究前沿及演进关键路径,重要的文献、作者及机构。可用于对ISI、CSSCI和CNKI等多种文献数据库进行分析。

  • TDA: Thomson Data Analyzer(TDA)是Thomson集团基于VantagePoint开发文献分析工具。商用软件。具有去重、分段等数据预处理功能;可形成共现矩阵、因子矩阵等多种分析矩阵;可使用Pearson、Cosine等多种算法进行数据标准化;可进行知识图谱可视化展示。

  • Sci2 Tools: 印第安纳大学开发的用于研究科学结构的模块化工具可从时间、空间、主题、网络分析和可视化等多角度,分析个体、局部和整体水平的知识单元。

  • ColPalRed: Gradnada大学开发的共词单元文献分析软件。商用软件。结构分析,在主题网络中展现知识(词语及其关系);战略分析,通过中心度和密度,在主题网络中为主题定位;动态分析,分析主题网络演变,鉴定主题路径和分支。

  • Leydesdorff: 系类软件。阿姆斯特丹大学Leydesdorff开发的这对文献计量的小程序集合。处理共词分析、耦合分析、共引分析等知识单元体系。使用“层叠图”实现可视化知识的静态布局和动态变化。

  • Word Smith: 词频分析软件。可将文本中单词出现频率排序和找出单词的搭配词组。

  • NWB Tools: 印第安纳大学开发的对大规模知识网络进行建模、分析和可视化工具. 数据预处理;构建共引、共词、耦合等多种网络;可用多种方法进行网络分析;可进行可视化展示.

  • Ucinet NetDraw: Ucinet是社会网络分析工具。包括网络可视化工具Net Draw。用于处理多种关系数据,可通过节点属性对节点的颜色、形状和大小等进行设置。用于社交网络分析和网络可视化。

  • Pajek: 来自斯洛文尼亚的分析大型网络的社会网络分析免费软件。Pajek基于图论、网络分析和可视化技术,主要用于大型网络分解,网络关系展示,科研作者合作网络图谱的绘制。

  • VOSviewer: 荷兰莱顿大学开发的文献可视化分析工具。使用基于VOS聚类技术技术实现知识单元可视化工具。突出特点可视化能力强,适合于大规模样本数据。四种视图浏览:标签视图、密度视图、聚类视图和分散视图。

[4]陈悦, 刘则渊, 陈劲等. 科学知识图谱的发展历程[J]. 科学学研究, 2008, (03): 449-460.

[5]Shiffrin, R.M., and Katy Börner. Mapping Knowledge Domains[C]. Proc. Proceedings of the National Academy of Sciences of the United States of America pp. 5183-5185.

[6]Börner, K., Chen, C.和Boyack, K.W. Visualizing knowledge domains[J]. Annual review of information science and technology, 2003, 37, (1): 179-255.

[7]CM, C. CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology, 2006, 57, (3): 359-377.

[8]陈悦和刘则渊. 悄然兴起的科学知识图谱[J]. 科学学研究, 2005, (02): 149-154.

[9]邱均平. 信息计量学[M]. (武汉大学出版社, 2007. 2007).

[10]沙勇忠和牛春华. 信息分析[M]. (科学出版社, 2009. 2009).

[11]塞沃尔, 建军和煦. 链接分析: 信息科学的研究方法[M]. (东南大学出版社, 2009. 2009).

[12]Egghe, L.和Rousseau, R. Introduction to informetrics: Quantitative methods in library, documentation and information science[J]. 1990

[13]韩家炜, 坎伯, 裴健等. 数据挖掘: 概念与技术[M]. (机械工业出版社, 2007. 2007).

[14]Wasserman, S. Social network analysis: Methods and applications[M]. (Cambridge university press, 1994. 1994).

[15]Persson, O., R. Danell, J. Wiborg Schneider. How to use Bibexcel for various types of bibliometric analysis[C]. Proc. International Society for Scientometrics and Informetrics., Leuven, Belgium2009 pp. 9–24.

[16]Yang, Y., Akers, L., Klose, T.等. Text mining and visualization tools–impressions of emerging capabilities[J]. World Patent Information, 2008, 30, (4): 280-293.

[17]Börner, K., Huang, W., Linnemeier, M.等. Rete-netzwerk-red: analyzing and visualizing scholarly networks using the Network Workbench Tool[J]. Scientometrics, 2010, 83, (3): 863-876.

[18]廖胜姣. 科学知识图谱绘制工具:SPSS和TDA的比较研究[J]. 图书馆学研究, 2011, (05): 46-49.

[19]Scott, M. WordSmith tools[M]. (Oxford: Oxford University Press, 1996. 1996).

[20]Batagelj, V.和Mrvar, A. Pajek - Program for Large Network Analysis[M]. (1998. 1998).

[21]Borgatti, S.P., Everett, M.G.和Freeman, L.C. Ucinet for Windows: Software for social network analysis[J]. 2002

[22]Van Eck, N.J.和Waltman, L. VOSviewer: A computer program for bibliometric mapping[J]. 2009

本文原创,转载请注 狮子座流星

posted @ 2016-02-28 09:21  狮子座流星  阅读(20467)  评论(0编辑  收藏  举报