最近在研究文本聚类与文本分类这些东西,觉得这些都是seo中非常核心而且非常基础的算法和处理,如果不能好好地把握到核心,很多处理的过程并不能很好地理解,虽然很多人不屑于基础理论的建设。
HITS算法是一个非常常见的算法,无数的seoer都了解或者阅读过百度百科,不过,对于HITS算法的深层次理解的人想来却不是很多,例如最近在光年论坛上讨论的两个帖子,一个是Hub主题确定处理现象,就是说首页由于内页的一个链接,导致在搜索内页title时候出现结果却是首页http://www.gnbase.com/thread-12078-1.html,另一个是GSA的测试http://www.gnbase.com/thread-12043-1.html,得出来的结果是含有锚链接的词域降低了TF。其实仔细想下,这两个现象都是和hits算法有关的。不信,你可以仔细阅读下HITS算法就知道了。
说到HITS算法,我们可以说到两个值authority值与hub值的问题,一个是内容质量权威度一个是链接质量权威度(个人为了容易区分)。HITS算法最大的优势是基于主题关键词的计算,相对于PR仅仅计算链接关系来说,降低了内容挖掘和结构挖掘的量度,但是由于关系的复杂性和人为因素的影响,hits算法也有非常多的盲点和缺憾,其中最重要的有4点问题:
1,Hub主题难以确定-authority的主题漂移
由于hub页面的主题是由链向的页面确定的,很多时候链向页面的主题是非常复杂的,这样就导致了主题的多样性,例如光年论坛的第一个问题就是最好的证明。(解释下:第一个问题hub主题难以确定是一个因素,也和网站词频因子和网页authority值有关,个人观点!)而且这种指向有时候是非常多的,导致首页的hub权重也非常高,影响就更大。被指向的页面也会出现类似的事情,最常见的就是主题漂移。
其实解决这个问题,最好的办法是加大meta标签的权重,但是现实上并不理想,另外的方法就是降低hub页面的hub权重。(看的资料上有人说采用平均值降低hub页面的hub值,个人觉得很无语。谷歌PR修正算法中其实已经涉及到权重值的分配问题,所以剩下的就是主题性的确定,百度对于这个技术确实不行,所以很容易出现这些事情也是正常的。)
2,全站链接与链接农场
hits算法的如果按照常规的计算,加入一个页面链接了很多页面那么这个页面的hub值是非常高的,那么可以采用链接农场的方式作弊也就不足为怪了;全站链接是和链接农场相反的一种做法,让一个网站的链接全部链接到另一个页面,这样被链接的页面也就获得了很高的authority权威值。但是由于黑帽,hits算法才开始改变。问题是,他是如何改变的呢?如果了解了这个问题,恐怕对做外链会有很大的帮助的。
3,从无关链接到文内链接与内链是有区别的
无关链接曾经帮助很多开发者的网站权重提升很多,一些站内的无关链接如导航链接或者次导航之类的链接都曾经被很多seoer所熟悉,但是都成为了过去式。从hits算法原理上,这些原本都应该影响搜索的,后来被PASS掉了。但是另外一中的链接仍旧存在着很重要的影响,那就是文内链接。http://www.gnbase.com/thread-12043-1.html的结论是错误的,比如第一帖的问题就无法解释了。其实这个在于他仅仅注意到了文内链接的影响,要知道内链和内链是不一样的,而我习惯上不把文内链接看作内链的。
4,低质量的链接与无关页面
曾经几何还有人在兜售说神马蜘蛛精外链工具,其实se早就发现了大量无效的聚合页面,比聚合搜索的页面,这些页面之间是没用主题相关性的,仅仅是一些其他关系而放在一起的,对于这个处理其实是蜘蛛最大的难题,一般采用web内容挖掘技术,了解数据含义,但是对于蜘蛛目前来说仍旧是一个难题。