破解百度原创文章识别的和稀泥手段
洪雨写的《百度收录王》这次更新的幅度比较大,终于迎来了5.6版本。
本来也不想更新的,但是为了配合刚写的目录网站建站工具,想让收录更好一些,就做了一下改动。
算法还是针对当下比较流行的指纹算法。
身在这个行业里,洪雨发现很多平台有原创文章的功能,而且手法各不一样。很多所谓的智能AI文字处理,其实都是用翻译的手法,忽悠门外汉。而且可笑的是,几乎全部都调用的谷歌翻译。
是认为百度翻译不香吗?认为百度自己能认识自己翻译的?
呵呵,想多了。
还有一种手段是比较厉害的,原理还是同义词替换,但是这种是半自动替换,就是文章的每个词都可以手动点击,然后弹出很多这个词的同义词,你手动选择。
这种人脑参与的同义词替换,可以让文章几乎全改一遍,语意不变,还很通顺。
缺点是,效率跟不上,无法满足站群百万文章需求。
其实百度已经有能力分析单句的词义,这个功能还能试用,洪雨忘了在哪看到这个功能的,反正当时也震惊了一下。觉得百度已经这么智能了吗?
但,也仅限于单句处理。一个句子放到不同的文章里,可能意思就完全变了,一个词放到不同的句子里,意思可能就完全不一样。所以,要想完全玩转汉语,还有很长的路要走。
百度的主要算法,还是根据关键词来计算分类分数,从大到小,再从小到大来理解全部的意思。
先统计全站关键词,再统计单篇的,然后到段落的,到句子的,再到单个关键词。以整体为基准,来判断单个关键的意思。
洪雨的针对策略不用多说,就是还是相关关键词,所以至始至终《百度收录王》主打的就是相关性,就是针对seo来开发的。这么多年了,一直如此,效果也依然,同时论证了洪雨猜测的正确性。
关于原创度,其实这个很难把控。
以前,洪雨会认为100%的原创度是最好的,是最容易收录和排名的。后来发现不是的,因为这不符合逻辑。
试想,一个网站,有哪个网站的网页是100%原创,或者98%以上原创?全互联网文章那么多,而且经过这么多年,百度数据库已经如此的庞大,你网站的文章居然一点点都没有匹配上的?
假设真就如此,只能证明,你的文章有问题,是垃圾文章,哪怕你有那么一点点的可读性,就一定会有所匹配的。
经过洪雨的测试,这种“纯原创”文章,貌似不错,收录好,相关性高,但排名不行,掉的也快。所以,一切以真实为准绳,完全模拟真实才是硬道理。
原创度在70%~80%之间是比较好的,低了原创度不够,高了又不真实。
上面洪雨也说了,这个原创度是很难把控的。可以负责人的说,市面上所有原创度检测的工具,检测的都不准。因为算法是百度定的,而且从来没有公开过,谁也不会计算原创度,都各个软件开发者自己瞎想的。
为了解决这个问题,洪雨能够想到的唯一的点子,就是先创造出70%原创的文章,然后揉进去30%非原创的文章。
虽然简单粗暴,但至少可控。效果没检测,以此篇为一个记录。