【把玩信息图之标签云】看看我一年的邮件在扯什么

2013年开始了,用一个信息图缅怀我的2012:用标签云展示我一年的邮件在扯什么。

整个标签云的制作过程利用现有技术,方便操作。

准备数据

利用邮件客户端将2012年的邮件导出到目录

image

 

然后用在控制台,用dir /b > input.txt 命令,仅仅将标题输出到一个文件内容(这里是取巧了,只统计邮件标题,其实根据需要可以导出内容进行处理,方式不展开讨论了)

image

 

统计词频

词库当然是利用现成的,在网上找了一个盘古分词(盘古分词:http://pangusegment.codeplex.com/),写了几行代码调用完成了词频统计(只适用于小型统计)

编译好的程序见附件,可直接使用:

1 输入文本内容放入input.txt
2 运行xqptag.exe,生成词频在data.txt

如果需要修改词库,使用\pangu\DictManage.exe打开\Dictionaries下的Dict.dct文件进行添加修改

得到data.txt文件如图所示:

image

 

数据处理

data.txt是按照词频顺序排列的,以[词]:[出现次数]这样的格式排列

如果希望出现的未出现,可能是词库未包含,使用\pangu\DictManage.exe打开\Dictionaries下的Dict.dct文件进行添加修改,修改方法参考盘古官网说明。

如果不希望的词出现,例如txt或者一些助词之类,可手工处理。

 

生成标签云

在众多标签云生成软件中,我选择了tagxedo,无需注册:http://www.tagxedo.com/

访问网站,点击create

image

 

在load目录中的enter text,输入修改过的词频数据,点击submit就会生成一个粗略的标签云

image

image

当然这个并不是我们想要的样式,我还要进行调整:

最重要的一步:在word | layout option 中的word一页 apply nonlatin heuristics 设置为no,这样才不会将中文的词分开

设置方向:Orientation中选择方向Horizontal(水平)

选择样式、主题、颜色… 大家慢慢发掘

 

最后用save生成可下载的图片文件,大功告成!

image

posted @ 2013-02-20 22:22  Anic  阅读(3471)  评论(2编辑  收藏  举报