Fast Newman-FN算法以及模块度定义介绍

一、社区的定义

Newman第一次提出模块度定义就是在2004年发表的这篇文章“fast algorithm for community structure in networks”，第一次用量化的公式来确定社区划分。

首先，我们来看Newman如何定义社区的：the vertices in networks are often found to cluster into tightly knit groups with a high density of within-group edges and a lower density of between -group edges。

用大白话说就是：社区内部的边尽可能地多，但是社区之间的边尽可能地少

（一些定义）：i、j指社区i和社区j；

n是网络中节点的数量；

m是网络中边的数量。一条边上连接两个节点，和明显，2m即网络中所有节点度之和

二、如何量化到模快度？

我们先用e_ij表示社区i和社区j之间连接的边的数量比整个网络边的数量，e_ii表示社区i内部边的数量比整个网络边的数量，既然这样的话我们只要使∑_ie_ii尽可能大就好了，但是问题又来了，最大肯定就是1咯，所有节点归为一个社区，那这样很明显就没有意义了。

于是他有提出，网络中连接两个同种类型的边（即社区内部的边的比例e_ii）减去在相同结构下任意连接这两个节点边的比例的期望，于是模块度登场

Q=∑_i(e_ii-a_i²)

其中，a_i=∑_je_ij表示与社区i中节点相连的边占所有边的比例。如果社团内部边的比例不大于社团内部边随机连接的期望，那么Q=0,最大时为1。一般来说，Q值最大对应的社团结构就是网络中的社团结构

三、如何变成算法可操作性？

意思来了，我们只要优化Q就好了，但是如何把n个节点划分多少个社区？每个社区多少个节点？作者指出有2^n-1种可能，这样的话根本无法将Q推广在高于20节点以上的网络？为了减少时间复杂度，作者提出一种贪婪策略

FN：（1）首先将网络中每个节点自定义成一个社区

（2）计算出两两社区结合是Q的值，找到Q增加最大的或者减少最少的合并方式进行社区合并

（3）直到所有社区合并成一个大社区时停止，找出合并过程中最大的Q是的社区划分结果

这个时候，Newman有注意到，当两个社区合并时，模块度的增量detaQ=(e_ji+e_ij-2a_i*a_j)=2(e_ij-2a_i*a_j)

四、代码来了

clear all
close all
clc

% load preprocess.mat
% E=e;
load('dolphin.mat');
E=A;
% E(find(E>0))=1;%建立邻接矩阵
tic;
e=E;
e(e==1)=1/sum(E(:));
a=sum(e);
n=size(A,2);
b=[1:n];
b=num2cell(b);%用来存储社团元素的变量
c={};
k=1;
while length(e)>1
      lg=length(e);
      detaQ=-(10^9)*ones(n-k+1);%△Q
      for i=1:lg-1
          for j=i+1:lg
             if e(i,j)~=0
                detaQ(i,j)=2*(e(i,j)-a(i)*a(j));%计算△Q
             end
          end
      end
   if sum(detaQ+(10^9))==0
      break
   end
% Q(k)=max(detaQ(:));%寻找△Q的最大值，并把它存储进Q(k)矩阵
%-----------------------------寻找最大△Q对应的两个社团，并将其合并，并改变e矩阵
[I,J]=find(detaQ==max(detaQ(:)));

     for ii=1:length(I)
         e(J(ii),:)=e(I(ii),:)+e(J(ii),:);
         e(I(ii),:)=0;
         e(:,J(ii))=e(:,I(ii))+e(:,J(ii));
         e(:,I(ii))=0;

% e(I,I)=e(I,I)/2;
%—————————记录△Q最大所对应的社团以及各社团中的元素

        b{J(ii)}=[b{I(ii)} b{J(ii)}];
        b{I(ii)}=0;
     end

  e(I,:)=[];
  e(:,I)=[];
  b(I)=[];
  c(k,:)=num2cell(zeros(1,n));
  c(k,1:length(b))=b;
  for kk=1:length(b)
      c2=cell2mat(c(k,kk));
      c2(c2==0)=[];
      c{k,kk}=c2;
      c2=[];
  end
a=sum(e);
k=k+1;
tmp=0;
  for jj=1:length(e)
      tmp=tmp+(e(jj,jj)-a(jj)*a(jj));
  end
Q(k)=tmp;
end
max_k=find(Q==max(Q(:)))-1;

ll=0;
for i=1:length(c(max_k,:))
    if sum(c{max_k,i})~=0
        ll=ll+1;
        c{max_k,i}=c{max_k,i}(c{max_k,i}~=0);
    end
end
c_newman=c(max_k,1:ll);
label=zeros(n,1);
for i=1:ll
    label(c{max_k,i}')=i;
end

posted @ 2017-06-09 21:18 bethansy 阅读(11256) 评论(3) 收藏举报

刷新页面返回顶部

bethansy

Fast Newman-FN算法以及模块度定义介绍

公告