文献信息分析工具的比较2015
笔记内容节选于 20151115 李艳; 张悦; 曾可; 张士靖 发表的期刊《文献信息分析工具的比较》
1选取具有代表性的13种文献信息分析工具,
2从支持的数据格式、数据预处理、构建的关系矩阵、标准化处理、分析方法、结果的可视化等方面进行了比较,
3总结了每个工具的优势与不足,并为用户选择合适的分析工具提出了建议。
工具基本信息
工具 |
开发机构 |
开发年份 |
版本 |
是否免费 |
HistCite |
美国Thomson Reuters |
2001 |
12.3.17 |
否(有试用版) |
CiteSpace |
美国 Drexel 大学 |
2004 |
3.8R13 |
是 |
VOSviewer |
荷兰 Leiden University |
2010 |
1.6.0 |
是 |
SciMAT |
西班牙格纳纳达大学 |
2011 |
V1.1.03 |
是 |
SCI2 |
美国印第安纳大学KatyBornoe |
2009 |
V1.1 |
是 |
Bibexcel |
瑞典科学家Persson |
2009 |
2014.03.25 |
是 |
Bicomb |
中国医科大学 |
2009 |
2.0 |
是 |
SATI |
浙江大学大学信息管理系 |
2011 |
3.2 |
是 |
Pajek |
A.Mrava和V.Batagelj |
1996 |
3.04 |
是 |
Ucinet |
Lin Freeman |
- |
6.0 |
否(有试用版) |
GOPubMed |
德国Transinsight公司和德累斯顿大学 |
2005 |
- |
是 |
本地PubMed |
中国济南泉方 |
2007 |
- |
否 |
PubMedplus |
北京唯博赛科技有限公司 |
2012 |
- |
否(有试用版) |
支持的数据格式
工具 |
工具类型 |
数据量 |
支持的数据库及数据类型 |
HistCite |
文献计量 |
支持大型数据 |
WOS |
CiteSpace |
文献计量 |
10000条以内 |
WOS,PubMed,Derwnet,Scopus,GoogleScholar,ArXiv,ADS,NSF,CSSCI,CNKI |
VOSviewer |
文献计量 |
支持大型数据 |
网络格式:支持Pajek得net,GML;书目数据:WOS,Scopus,PubMed;语料库:WOS,Scopus |
SciMAT |
文献计量 |
10000条以内 |
WOS(txt),Scopus(RIS),CSV格式 |
SCI2 |
文献计量 |
10000条以内 |
网络格式: GraphMl(xml,graphml), XGMML(xml),Pajek(net),NWB(nwb); 书目数据: WOS(isi), Bibtex(bibi), Endnote(enw), Scopus csv(scopus),NSF csv(nsf); 其他: Pajek Matrix(mat),TreeML(xml),Edgelist(edge),CSV(csv) |
Bibexcel |
文献计量 |
支持大型数据 |
WOS(txt),Scopus(ris),转化后的CSSCI |
Bicomb |
文献计量 |
支持大型数据 |
WOS(txt),PubMed(xml),万方(xml), CNKI(xml) , 自定义数据格式 |
SATI |
文献计量 |
支持大型数据 |
WOS(html),CNKI(Endnote),万方(NoteExpree) ,维普(Notefirst) |
Pajek |
社会网络 |
支持大型数据 |
文本数据,支持各种软件导出(net,vec,clu,per,cls,hie等),Ucinet的DL格式 |
Ucinet |
社会网络 |
支持大型数据 |
原始数据,Excel,数据语言数据 |
GOPubMed |
文献计量 |
100000 |
无语导入数据 |
本地PubMed |
文献计量 |
支持大型数据 |
无语导入数据 |
PubMedplus |
文献计量 |
支持大型数据 |
无语导入数据 |
数据预处理
工具 |
数据预处理方式 |
HistCite |
数据精简 |
CiteSpace |
时间切片、数据和网络精简 |
VOSviewer |
数据精简、网络精简 |
SciMAT |
去重、时间切片、数据和网络精简 |
SCI2 |
去重、时间切片、数据和网络精简 |
Bibexcel |
数据和网络精简 |
Bicomb |
数据精简 |
SATI |
中文分词 |
Pajek |
无 |
Ucinet |
无 |
GOPubMed |
基于语义分类工具GO&MeSH |
本地PubMed |
基于语义分类工具GO&MeSH |
PubMedplus |
基于语义分类工具GO&MeSH,单位和作者异名的规范和汉化 |
显示Sci MAT和SCI2 包含4 种数据预处理模块,优势明显; 大部分工具支持数据精简和网络精简; Pajek和Ucinet无数据预处理功能。GOPub Med,Pub Medplus和本地Pub Med基于语义分类工具GO&Me SH引入本体概念,支持语义级的交换,可消除或减少由于同义词或相近词概念及术语的混乱,在语义数据处理方面优势明显。此外,Pub Medplus还增加了单位和作者异名的规范处理功能。
实现的关系矩阵
工具 |
书目耦合 |
合作 |
共引 |
共词 |
直接引文 |
其他 |
||||||
作者 |
期刊 |
文献 |
作者 |
国家 |
机构 |
作者 |
文献 |
期刊 |
||||
HistCite |
|
|
|
|
|
|
|
|
|
|
* |
|
CiteSpace |
|
|
* |
* |
* |
* |
* |
* |
* |
* |
|
* |
VOSviewer |
* |
* |
* |
* |
|
* |
* |
* |
* |
* |
|
|
SciMAT |
* |
* |
* |
* |
* |
* |
* |
* |
* |
* |
|
* |
SCI2 |
* |
* |
* |
* |
|
|
* |
* |
* |
|
* |
* |
Bibexcel |
|
|
* |
* |
* |
* |
* |
* |
* |
* |
|
* |
Bicomb |
|
|
|
* |
|
* |
* |
* |
|
|
|
|
SATI |
|
|
|
* |
* |
* |
|
* |
|
* |
|
* |
Pajek |
|
|
|
|
|
|
|
|
|
* |
|
|
Ucinet |
|
|
|
|
|
|
|
|
|
|
|
|
GOPubMed |
|
|
|
* |
|
|
|
|
|
|
|
|
本地PubMed |
|
|
|
|
|
|
|
|
|
* |
|
|
PubMedplus |
|
|
|
* |
* |
* |
|
|
|
* |
|
|
关系矩阵中最常见的分析单元是期刊、文献、参考文献、作者、主题词或关键词。分析单元之间的关系可分为三类。第一类是直接引文关系,即直接从信息的发送者到信息的接受者。第二类是将分析单元之间的关系用做共现数据,即通过计算两个分析单元在文献中同时出现的次数来衡量两个分析单元之间的相似性,包括合作、耦合、共引和共词。合作用来分析研究领域的社会结构,共词则是使用文献中最重要的主题词或者关键词研究一个领域的概念结构[27],共引和书目耦合用来分析研究领域的知识结构。区别在于,书目耦合是固定和永久的引文关系,共引关系是随时间而变的[28]。第三类是一些不常见的或复杂的网络。表4 列举了各种分析工具可以创建的关系矩阵。可以看出,没有一个工具可以创建全部关系矩阵,大部分工具都支持共现矩阵的创建,其中Citespace,Vosviewer,Sci MAT,SCI2,Bibexcel等可以构建多数关系矩阵,但只有Histcite和SCI2支持直接引文网络。相对于GOPub Med和本地Pub Med仅关注于一种网络,Pub Medplus可以构建4种网络,Pajek和Ucinet则不支持文献计量学网络的创建。此外,SATI可以创建包含词条共现矩阵、频率分析矩阵、文档词条矩阵等在内的8 种矩阵。
标准化处理
构建了分析单元的关系矩阵之后,需通过标准化处理对数据间的相似性进行测量来获得数据之间的隐含关系,简而言之就是对数据进行规范化
工具 |
标准化方法 |
HistCite |
无 |
CiteSpace |
Salton's余弦、Jaccard'指数 |
VOSviewer |
关联强度 |
SciMAT |
关联强度、Equivalence指数、Inclusion指数、Jaccard指数、Salton余弦 |
SCI2 |
用户自定义 |
Bibexcel |
Salton余弦、Jaccard指数、Vladutz和Cook标准化 |
Bicomb |
无 |
SATI |
Equivalence指数 |
Pajek |
无 |
Ucinet |
Jaccard指数,cohen’s kappa, identity系数, correlation, hamming-sim |
GOPubMed |
潜在语义分析 |
本地PubMed |
潜在语义分析 |
PubMedplus |
潜在语义分析 |
常用标准化处理方法有Salton's余弦、Jaccard'指数、Equivalence指数、关联强度等[2]。如表5 所示,大部分分析工具都使用了上述方法中的一种或多种; GOPub Med,Pub Medplus,本地Pub Med则因使用GO&Me SH工具,使用潜在语义分析将语料库与本体进行连接; Pajek和Histcite则无规范化处理的功能。
分析方法
分析工具所用的分析方法很多,如网络分析、地理空间分析、时间序列、性能分析、突变检测等。网络分析是测量某一节点在整个网络中的中心度,或一个聚类在图谱中的中心度; 地理空间分析则是回答事件在哪里发生及其对周围区域的影响; 时间序列,或纵向分析旨在分析不同时间段研究领域的演变,主要通过对趋势、离群、活动、模式和季节性等的观测,是知识图谱分析中最常见的一种分析方法; 性能分析使用基于引文的文献计量学指标和方法来量化图谱和网络中不同元素的重要性、影响和质量; 突变检测是时间序列分析的一种,旨在发现有限的持续时间内变量的剧烈变化[1]。表6 显示,最常见的方法是网络分析、时间序列分析和突变检测。其中,Citespace,Sci MAT和SCI2 的分析方法最多; Ucinet采用多种网络分析指标。本地Pub Med和Pub Med-plus等都使用了期刊影响因子、H指数、被引频次等指标; 此外,Pub Medplus使用了替代计量学的评价指标Altmetric得分,本地Pub Med增加了威望指数。
工具 |
文献计量学指标 |
分析方法 |
HistCite |
无 |
聚类分析,时间序列分析 |
CiteSpace |
频次/中心性,初现年,Burst值,∑值,PageRank,半衰期 |
突变检测,地理空间分析,网络分析,时间序列分析 |
VOSviewer |
无 |
网络分析,主题分析 |
SciMAT |
Callon’s密度和中心度,H-指数,g指数,hg-index,q2指数,平均引文数,最大引文数,最小引文数 |
基本数据统计分析,网络分析,性能分析,时间序列分 |
SCI2 |
无 |
突变检测,地理空间分析,网络分析,时间序列分析,主题分析,基本数据统计分析 |
Bibexcel |
无 |
基本数据统计分析,网络分析 |
Bicomb |
频次,百分比,累计百分比 |
聚类分析 |
SATI |
批次 |
聚类分析 |
Pajek |
中心度,立即指数,密度 |
网络分析、时间序列分析 |
Ucinet |
中心度,二方关系凝聚力测度,位置分析算法,派系分析,随机二方关系模型 |
网络分析 |
GOPubMed |
无 |
聚类分析、地理空间分析、分类导航分析吗、主题分析 |
本地PubMed |
影响因子、威望指数、H指数、Q分区、被引次数 |
聚类分析、主题分析、知识发现 |
PubMedplus |
影响因子,H指数,被引次数,Altmetric得分 |
聚类分析、主题分析、地理空间分析 |
可视化图谱
可视化图谱用来帮助用户分析和理解结果。
工具 |
可视化图谱 |
HistCite |
引文编年图 |
CiteSpace |
自动聚类标签视图、时间线视图、时区视图、鱼眼视图 |
VOSviewer |
网络可视化视图、条目密度视图、聚类密度视图 |
SciMAT |
条目叠加图、演变地图、战略图、聚类网络 |
SCI2 |
二分网络图、水平条形图、等值线图、比例符号地图、此外可通GUESS、Gephi、Cytoscape等插件进行可视化 |
Bibexcel |
导入Pajek、Ucinet、Vosviewer等进行可视化 |
Bicomb |
导入SPSS、Gclute进行聚类分析 |
SATI |
内嵌Netdraw可视化工具 |
Pajek |
2D、3D或者动态的社群图 |
Ucinet |
散点图、树状图、树形图,以及Netdraw内置的画图工具 |
GOPubMed |
地图、聚类图、趋势图、条形统计图 |
本地PubMed |
指纹共词图、趋势图、聚类网络 |
PubMedplus |
趋势图、地图 |
在时间序列分析的可视化中,Histcite使用编年史图,Citespace使用时间线视图,Sci MAT使用演变地图和重叠条目图,GOPub Med,Pub Medplus和本地Pub Med则使用的是趋势图。 Citespace,Vosviewer,SCI2,Pajek,Ucinet,GOPub Med,本地Pub Med等可实现多种类型的可视化图谱。其中SCI2 是一个模块化的工具集,除自身所具备的可视化技术,还内置多种可视化软件; SATI,Bibexcel,Bicomb等不具备可视化功能,需要借助其他可视化软件。
结论
通过对13种分析工具的比较,可以看出每一个工具都有着不同的特点,没有一个工具能够囊括所有的功能。比较结果显示,Citespace,SCI2,SciMAT功能较完整,其他工具也有各自的优势。对13种分析工具特点归纳如下。
Histcite主要用于对书目数据进行基本的统计分析,以时间序列编制引文编年史图展示领域的演变路径,但无法对数据进行标准化处理,分析方法较少。
Citespace支持中文数据库在内的多个数据库,可以构建常见的关系网络,采用多种文献计量学分析方法定量分析可视化结果,从多个角度展示某领域的演变历程,但其无法实现数据的去重。
Vosviewer的优势在于可视化,能从多个视图对结果进行展示,可构建多种矩阵,并支持文本挖掘,但其无法实现数据的去重,不能通过时间演变展示一个领域的演进路径。
SciMAT具有强大的预处理能力,能构建多种文献计量学网络,并以文献计量学指标对结果的影响力进行定量分析,还可通过配置向导的方式引导用户进行分析。
SCI2是一个模块化工具集,集合了多个工具的功能,支持多种格式的输入,分析方法多样,在可视化方面拥有丰富的插件,但在使用上有一定的难度。
Bibexcel专门用来构建文献计量学关系矩阵,具有高度的灵活性,需借助其他的可视化软件来进行可视化分析。
Bicomb支持中文数据库,能进行基本的统计分析,并生成多种共现矩阵和词篇矩阵,但数据处理和可视化方面存在不足。
SATI支持中文数据库,实现基本的统计分析,能构建多类矩阵。
Pajek支持大型的网络数据,不仅可以构建一些普通的网络图,还支持特殊网络的构建,具有强大的图形处理能力,但不支持文献计量关系矩阵的创建,数据预处理能力差。
Ucinet可导入矩阵,也可自行创建,具有网络分析功能,内置可视化软件,但不支持文献计量学矩阵的创建。
GOPub Med是最早使用基于本体的语义分类工具,支持分类导航分析,使用户能快速找到最相关的文献,但创建的关系矩阵单一。
本地Pub Med使用多个计量学指标对文献进行评价,可以从多个角度对分析结果进行可视化。
Pub Medplus基于Pub Med,在数据处理方面解决了作者重名的问题,其最大的优势在于其强大的聚类分析功能。
对用户选择分析工具的建议
由于文献信息分析工具种类众多,在开展分析时,应了解不同工具的特点,再根据不同的分析目的、特性和拟解决的问题,选择恰当的分析工具。一是要根据数据源选择合适的工具。若数据源为PubMed,可以选择GOPubMed,PubMedplus或者本地PubMed及支持PubMed数据库的工具;对于用户自行创建的矩阵数据,选择Pajek或Ucinet。二是Citespace,SCI2,SciMAT,Vosviewer,SATI,Bibexcel,Bicomb等工具均可用于共现分析。一般来讲,用户可以根据数据源选择上述任何一个工具进行分析。不过共词分析和合作者分析需要对源数据进行去重,所以应选择SciMAT或SCI2。Bibexcel,SATI和Bicomb等工具主要用于构建各类关系矩阵,但需借助其他工具进行可视化。三是不同的工具分析方法不同,用户可根据需求进行选择,如时间序列分析,需支持时间序列分析的工具,选择Histcite,Citespace,SciMAT,SCI2,Pajek等工具;对于直接引文网络的构建,选择Histcite和SCI2等工具。四是Citespace,SciMAT,Ucinet,本地PubMed和PubeMedplus等具有多种文献计量学指标,可以对产生的图谱进行定量分析。五是对于中文数据,Bicomb和SATI支持中国知网和万方数据库,Citespace支持中国知网和CSSCI数据库,Bibexcel支持转化后的CSSCI数据库。六是可考虑多个工具联合使用,因为没有一个软件可以实现全部的功能。
对文献信息分析工具研发工作的建议
文献信息分析工具是文献计量学、社会计量学、统计学、图形学、信息科学和计算机科学技术相结合的产物。国内对文献信息分析工具的研究起步晚,专业人员的投入不足,应加强多个领域的合作研究[29]。文献信息分析工具针对书目数据进行分析,数据库导出的数据越丰富,文献信息分析工具的价值越高。国内的大型数据库不支持引文数据的导出,故无法进行引文分析,应进一步加强与国内全文数据库的合作,促进双赢。大部分文献信息分析工具通过图谱实现对某一学科宏观和微观、定性和定量的把握,图谱的视觉效果对于结果的解读起着“一图胜千言”的作用。因此,要进一步加强分析工具的图谱展示功能。
结语
文献信息分析工具有着探测前沿热点、预测发展方向的作用。科学研究人员学会选择和使用这些工具,将使他们的科学研究更加高效。