《数学之美》之谈谈搜索引擎反作弊与权威性问题
《数学之美》之谈谈搜索引擎反作弊与权威性问题
声明:以下内容或摘自或总结自吴军老师的《数学之美》,由于所理解能力有限,本文并不对内容的科学性进行考证,但求能够从中略窥知一二,则已经是大有裨益了。而内容的科学性考证还是交给一些领域专家们去做吧,我尽我所能广泛涉猎而已。
反作弊
自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。
重复关键词
早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站,重复地罗列各种数码相机的品牌,如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词,聪明一点的作弊者常用很小的字体和与背景相同的颜色来掩盖这些关键词。其实,这种做法很容易被搜索引擎发现并纠正。
专门卖链接和买链接
在有了网页排名(page rank)以后,作弊者发现一个网页被引用的连接越多,排名就可能越靠前,于是就有了专门卖链接和买链接的生意。比如,有人自己创建成百上千个网站,这些网站上没有实质的内容,只有到他们的客户网站的连接。这种做法比重复关键词要高明得多,但是还是不太难被发现。因为那些所谓帮别人提高排名的网站,为了维持生意需要大量地卖链接,所以很容易露马脚。(这就如同造假钞票,当某一种假钞票的流通量相当大以后,就容易找到根源了。)再以后,又有了形形色色的作弊方式,我们就不在这里一一赘述了。
解决作弊问题的两种思路
一种是见一个打一个;一种是找到作弊者的规律,然后从个别现象上升到普遍规律,然后通过程序自动的纠正由于作弊的噪声带来的网页排名的紊乱。第一种最简单,典型的头疼医头脚疼医脚,容易被作弊者牵着鼻子走,所谓道高一尺魔高一丈,很难杜绝,而且需要人工的参与,工作量大,成本高。想起雅虎早期的新闻条目的收录和归类,完全采用人工,这就注定了雅虎无法走的长远。而谷歌从来都是希望从“道”的角度来解决问题,虽然起初可能让作弊者能够有机可乘,但是还是经过一段时间,逐渐把握了作弊者的规律,就能从根儿上彻底解决问题,从而做到一劳永逸,无需增加人力和物力,就能做得很好,这样不但能节省成本,而且能够提供更好的搜索服务,这才是解决问题或者治病的良方。
从如何把握这个道呢?通信模型对反作弊的建模,两个方面:一是从从信息源出发,加强通信自身的抗干扰能力;二是从传输出发,过滤掉噪声,还原信息。实际上跟自适应滤波中的自适应干扰抵消类似,我们在发动机很吵的汽车里打电话时,可能对方可能听不清;但是如果我们知道了汽车发动机的频率,我们可以加上一个和发动机噪音相反的信号,很容易地消除发动机的噪音,这样,收话人可以完全听不到汽车的噪音。事实上,现在一些高端的手机已经有了这种检测和消除噪音的功能。
搜索引擎的作弊者所作的事,就如同在手机信号中加入了噪音,使得搜索结果的排名完全乱了。但是,这种人为加入的噪音并不难消除,因为作弊者的方法不可能是随机的(否则就无法提高排名了)。
白噪声所含的信息量为0,完全没有规律,不能把握,在设计密码中,我们追求的伪随机数其实就是要模仿白噪声。这里还要点出一点,前一段时间看苹果2015年的发布会,提到了apple watch能够测量孕妇的婴儿心率,这实际上是在现代数字信号处理课程中自适应滤波的一个典型应用,主要方法是从距离胎儿较远的地方测得母亲心电信号,然后在胎儿附近的地方测得母亲+胎儿的心电,通过自适应滤波器,就能从胎儿+母亲心电中将母亲的心电信号消除,从而得到较强的胎儿心电。
另外,作弊的网站特点比较明显,对应的出链与不作弊的网站的出链相差很多,将每一个网站的出链数目作为一个向量,得到网站的固有特征,通过余弦定理计算相似度,有些网站的出链向量之间的余弦距离几乎为1,这些网站通常是一个人建立的,目的只有一个:卖链接。从而改进pagerank算法进行反作弊。
还有一种叫做网页落地页,内容质量非常高,但是里面暗藏javascript跳转到另外一个商业网站,用户进入这个网站后,落地的网页只是一闪而过,就进入到作弊的网站。通过解析javascript,可以解决这样的作弊手段。
总之,对于网络搜索引擎反作弊,不能头疼医头脚疼医脚,要从道和术两个方面,评估经济成本和效益,进行布局。
权威性问题
权威性问题是一个很难解决的问题,因为网络上某个问题的搜索答案各样的都有,很难保证内容的权威性,一个很好地尝试是“提及”,我的理解跟在学术论文中评价论文好坏的一个指标就是引用率,如果论文的引用率较高,就说明这篇论文的学术水平高。同样的,对于网络搜索内容的权威性,也可以从“提及”率的角度出发。
计算权威度的步骤卡概括如下:
- 对每一个网页正文中每一句话进行句法分析,找到涉及主题的短语。
- 利用互信息,找到主题短语与信息源的相关性。
- 对主题短语进行聚合(可采用奇异值分解的矩阵运算来解决)。
- 对一个网站中的网页进行聚合,按照子域或子目录进行聚类。
小结
主要是通过通讯模型,对网络搜索引擎的反作弊过程进行了建模,并从道的角度把握作弊者的或者作弊网站的规律,从而在一定程度上解决了作弊问题;而权威性问题通过了“提及”来解决,这一方面理解的不够深入,仅从学术论文的权威性来讲,也是从引用率上保证的。
2015-9-17 艺少