ITTC数据挖掘平台介绍(二) 微博数据挖掘和分析

上节我们介绍了系统的基本框架和特性，本文我们将通过该平台进行微博数据挖掘，并给出一些有意思的结果。

一.微博和微博数据

1.分析微博的意义

新浪的数据以每天海量的速度增长，它包含了四亿网民的对国家大事的看法，对生活的诉求，对环境和人的观点，以及人际间关系，是了解和分析复杂网络和社会行为的无比重要的资源。因此开发微博分析软件，是有非常重要的意义的。

2.加载微博分析独立组件

系统主要针对新浪微博，我们为微博开发了独立组件包，将其动态链接库dll文件拷贝到软件的插件目录下，系统就会自动加载。若不希望有该功能，只需简单删除链接文件库即可。

系统会将微博相关的算法，资源，数据类型加载到系统插件库中。

3. 微博数据

组件包内置了用户，微博，评论，热点事件的数据类型的支持，同时提供了Entity Framework的数据库访问能力，使用方便。同时，软件内置了新浪微博API接口，可以方便的从微博中采集微博数据，如下图所示：

获取数据后，可以通过下面的可视化组件查看这些数据。

您可以对这些数据做筛选，排序等操作，并送入数据管理器，为完成数据分析做准备。

二. 微博分析功能

1. 微博转发和信息溯源

该功能可以让我们了解和分析任一条微博的被转发和评论情况，您可以以简单有效的方式查看微博的事件流传送过程。

使用方法很简单，在数据管理器中选定任意一条微博，在系统菜单上点选“数据”中的”“，系统即可自动进行分析，结果如下：

2.话题分类和观点分析

该功能可以方便的对某用户的话题进行分类，并通过软件内置的”情感语义分析引擎“分析用户情感。并通过可视化组件实现绘图操作。

通过内置的微博采集器获取某名人的微博信息。

将”观点分析“和”图表统计输出“两个算法模块拖入算法处理器，并配置要处理的数据源。如下图所示：

最终可输出结果，分别以表格和图表的形式，给出分类结果。

3. 微博传播图谱

微博在微博网络中被转发的结构，最终可表现为不同的传播模式，36KR的一篇文章介绍了这个特性，链接在这里。

我们也完成了类似的功能，并能实现动画布点，按照时间顺序，演示信息的转发逻辑。使用方法也很简单，类似本节第一条，在菜单中选取“微博传播网络”即可。

以下是潘总的微博”本月结束了，跑步100公里目标都没有完成，仅97.6公里” 的转发关系图，明显的，二次转发较少，以一次转发为主。

三.用户关系行为分析

1. 用户关系分析

软件可以对某一批用户的关系进行分析,从而获得用户社团聚类，和人际关系网络。在用户关系分析中，我们采用了特别的相关度计算方法，结合用户的共同喜好，共同好友，地理位置等行为实现计算。当然，由于不同类型的用户可能具有完全不同的行为，软件会自动适配算法参数和权重，并送入聚类模块。

将“微博用户关系计算”，聚类图形显示和K-Means数据聚类拖入算法处理器，如下图所示：

这些算法通过自动组装，可实现如下的计算流程：

用户关系计算的结果送入K-means聚类中，最终将结果送入聚类图形显示中执行绘图。整个过程全部自动化。

最终，可获得好友关系圈，该人的好友主要分为两类，其本科同学和研究生同学。分类结果良好。若希望能更细分，可以将聚类参数进行调节，从而获得类似下图的结果：

(没有完全显示)

2.用户数据统计

将图表统计输出拖入到算法处理器，该模块会自动根据数据类型加载不同的统计方案，如下图所示，我们采用地理位置的数量统计方法来统计用户的好友地理分布，如图所示：

3.用户地理位置显示

软件可以根据微博的位置标签，显示某用户在一段时间内的位置信息，并显示在系统内置的地图上。如下图所示：

同时,还可以实现”路径漫游”功能，动态播放运动轨迹。

四.总结和开发计划

以上是软件平台目前关于微博的功能介绍。当然，这些结果还不完善。我们下一步的工作是：

1. 对微博数据进行深入语义分析和更加智能的情感分析

2. 微博的舆情分析，以及事件追踪图

3. 对微博特殊用户，如僵尸粉丝予以识别

4. 进一步了解和分析微博信息传播途径

有任何问题，欢迎进一步交流。

posted @ 2012-11-30 19:58 FerventDesert 阅读(7235) 评论(10) 收藏举报

刷新页面返回顶部

沙漠之鹰

开发笔记，理解和思考