文本可视化[二]——《今生今世》人物关系可视化python实现

2017-10-23 09:01 Fururur 阅读(11595) 评论(2) 收藏举报

文本可视化[二]——《今生今世》人物关系可视化python实现

在文本可视化[一]——《今生今世》词云生成与小说分析一文中，我使用了jieba分词和wordcloud实现了，文本关键词的提取并生成词云，同时也尝试直接提取人名关键词来绘制。这次我们换一种方式——通过分析人物之间的关系，而不是人物在文本集中的频率来绘制一张复杂网络图，如下所示。数据经过可视化后还是非常有趣的。下面就讲讲人物关系网图的实过程。

用到的工具

jieba
jieba分词，最好用的开源中文分词工具。他最主要的两个功能是分词和关键词的抽取。在文本可视化[一]——《今生今世》词云生成与小说分析使用了关键词抽取，在这里我们需要用他的分词功能来提取文本中的人名。
gephi
gephi是一个开源的复杂网络数据可视化软件，可用于探索数据分析、链路分析、社交网络分析、生物网络分析等。我们需要把数据处理成gephi可接受的csv格式，然后再进行绘制。

数据处理方式

在词云中，我们只能通过词的大小来了解该词对于文本集是否起关键作用，无法探究人物之间的关系；在关系网图中，不仅可以了解词的关键程度，还能发现人物之间的联系，更能说明问题。

由此可见，绘制词云时，我们只需要提取两列数据，一列人名，一列为频率。而绘制网络图时，就需要两组数据。网络图，顾名思义，就是一张图。所有的图都是由节点和边构成的。节点数据也就是节点值+权重，边数据就是出度+入度+权重。

对应到本文的例子中来，我们是来绘制《今生今世》中的任务关系网。具体的处理方式如下：

对文本进行针对性分词，统计人物在本文中的出场次数。
以段落为单位进行划分，统计每段中的人物，两两配对后计数，形成粗略的人物关系统计。
数据为gephi特定的csv格式，人物出场次数输出为格式为（Id,Label,Weight），人物关系输出格式为（Source,Target,Weigh）。这也就是之前所说的，用来绘制图的节点和边数据。

可能存在的问题

根据上文描述的统计方法来进行统计显然是粗略的，有很多问题需要进一步考量。

以自然段为单位统计人物关系是否合理？真实情况中有很多跨段落的人物关系。
显然利用笛卡尔积来统计人物之间的关系也是有问题的。
人物之前的称呼仅仅是直呼姓名的吗？显然还有多种代词，这里我将文本中的“我”也一并提取出来作为《今生今世》的中心人物——胡兰成。

结果虽然是粗略的，但是通过对文本的理解，绘制的图依然有一定的参考意义。

实现流程

代码实现分为三步，1. 人物出场次数统计。2. 人物关系统计。3. 格式化输出。

准备工作

准备两份字典，用于分词。

文本人物字典
文本人物字典包含了文本中的大部分人名，或者说是我们关心的人物的人名。

人物别称映射字典
民国时期的散文，势必每个人会有多个称呼，在文化人中甚多。蕊生、我、兰成、胡先生指代的都是胡兰成。因此需要一个映射字典，将不同的称呼都映射到同一个人名当中。

定义文件路径常量和初始化全局变量

TEXT_PATH = '../jsjs.txt'  # 文本路径
DICT_PATH = 'person.txt'  # 人物字典路径
SYNONYMOUS_DICT_PATH = 'synonymous_dict.txt'  # 同义词路径
SAVE_NODE_PATH = 'node.csv'
SAVE_EDGE_PATH = 'edge.csv'

'''
person_counter是一个计数器，用来统计人物出现的次数。{'a':1,'b':2}
person_per_paragraph每段文字中出现的人物[['a','b'],[]]
relationships保存的是人物间的关系。key为人物A，value为字典，包含人物B和权值。
'''
person_counter = defaultdict(int)	# 人物出场次数计数器
person_per_paragraph = []
relationships = {}
synonymous_dict = {}

人物出场次数统计

具体实现方式可以看代码注释。

def count_person(self):
    '''
    统计人物出场次数，添加每段的人物
    :return:
    '''
    paragraphs = self.get_clean_paragraphs()
    synonymous = self.synonymous_names()
    print('start process node')
    with codecs.open(self._dict_path, 'r', 'utf-8') as f:
        name_list = f.read().split(' 10 nr\r\n')  # 获取干净的name_list
    for p in paragraphs:
        jieba.load_userdict(self._dict_path)
        # 分词，为每一段初始化新字典
        poss = jieba.cut(p)
        self._person_per_paragraph.append([])
        for w in poss:
            # 判断是否在姓名字典以及同义词区分
            if w not in name_list:
                continue
            if synonymous.get(w):
                w = synonymous[w]
            # 往每段中添加人物
            self._person_per_paragraph[-1].append(w)
            # 初始化人物关系，计数
            if self._person_counter.get(w) is None:
                self._relationships[w] = {}
            self._person_counter[w] += 1
    return self._person_counter

人物关系统计

def calc_relationship(self):
	'''
	统计人物关系权值
	:return:
	'''
	print("start to process edge")
	# 遍历每一段落，笛卡尔积形式，统计人物关系
	for p in self._person_per_paragraph:
		for name1 in p:
			for name2 in p:
				if name1 == name2:
					continue
				if self._relationships[name1].get(name2) is None:
					self._relationships[name1][name2] = 1
				else:
					self._relationships[name1][name2] += 1
	return self._relationships

格式化输出

def save_node_and_edge(self):
	'''
	根据dephi格式保存为csv
	:return:
	'''
	with codecs.open(SAVE_NODE_PATH, "a+", "utf-8") as f:
		f.write("Id,Label,Weight\r\n")
		for name, times in self._person_counter.items():
			f.write(name + "," + name + "," + str(times) + "\r\n")

	with codecs.open(SAVE_EDGE_PATH, "a+", "utf-8") as f:
		f.write("Source,Target,Weight\r\n")
		for name, edges in self._relationships.items():
			for v, w in edges.items():
				if w > 3:
					f.write(name + "," + v + "," + str(w) + "\r\n")
	print('save file successful!')

输出结果如下图所示。