【把玩信息图之标签云】看看我一年的邮件在扯什么
2013年开始了,用一个信息图缅怀我的2012:用标签云展示我一年的邮件在扯什么。
整个标签云的制作过程利用现有技术,方便操作。
准备数据
利用邮件客户端将2012年的邮件导出到目录
然后用在控制台,用dir /b > input.txt 命令,仅仅将标题输出到一个文件内容(这里是取巧了,只统计邮件标题,其实根据需要可以导出内容进行处理,方式不展开讨论了)
统计词频
词库当然是利用现成的,在网上找了一个盘古分词(盘古分词:http://pangusegment.codeplex.com/),写了几行代码调用完成了词频统计(只适用于小型统计)
编译好的程序见附件,可直接使用:
1 输入文本内容放入input.txt
2 运行xqptag.exe,生成词频在data.txt
如果需要修改词库,使用\pangu\DictManage.exe打开\Dictionaries下的Dict.dct文件进行添加修改
得到data.txt文件如图所示:
数据处理
data.txt是按照词频顺序排列的,以[词]:[出现次数]这样的格式排列
如果希望出现的未出现,可能是词库未包含,使用\pangu\DictManage.exe打开\Dictionaries下的Dict.dct文件进行添加修改,修改方法参考盘古官网说明。
如果不希望的词出现,例如txt或者一些助词之类,可手工处理。
生成标签云
在众多标签云生成软件中,我选择了tagxedo,无需注册:http://www.tagxedo.com/
访问网站,点击create
在load目录中的enter text,输入修改过的词频数据,点击submit就会生成一个粗略的标签云
当然这个并不是我们想要的样式,我还要进行调整:
最重要的一步:在word | layout option 中的word一页 apply nonlatin heuristics 设置为no,这样才不会将中文的词分开
设置方向:Orientation中选择方向Horizontal(水平)
选择样式、主题、颜色… 大家慢慢发掘
最后用save生成可下载的图片文件,大功告成!