破解百度原创文章识别的和稀泥手段

    洪雨写的《百度收录王》这次更新的幅度比较大,终于迎来了5.6版本。

    本来也不想更新的,但是为了配合刚写的目录网站建站工具,想让收录更好一些,就做了一下改动。

    算法还是针对当下比较流行的指纹算法。

    身在这个行业里,洪雨发现很多平台有原创文章的功能,而且手法各不一样。很多所谓的智能AI文字处理,其实都是用翻译的手法,忽悠门外汉。而且可笑的是,几乎全部都调用的谷歌翻译。

    是认为百度翻译不香吗?认为百度自己能认识自己翻译的?

    呵呵,想多了。

    还有一种手段是比较厉害的,原理还是同义词替换,但是这种是半自动替换,就是文章的每个词都可以手动点击,然后弹出很多这个词的同义词,你手动选择。

    这种人脑参与的同义词替换,可以让文章几乎全改一遍,语意不变,还很通顺。

    缺点是,效率跟不上,无法满足站群百万文章需求。

    其实百度已经有能力分析单句的词义,这个功能还能试用,洪雨忘了在哪看到这个功能的,反正当时也震惊了一下。觉得百度已经这么智能了吗?

    但,也仅限于单句处理。一个句子放到不同的文章里,可能意思就完全变了,一个词放到不同的句子里,意思可能就完全不一样。所以,要想完全玩转汉语,还有很长的路要走。

    百度的主要算法,还是根据关键词来计算分类分数,从大到小,再从小到大来理解全部的意思。

    先统计全站关键词,再统计单篇的,然后到段落的,到句子的,再到单个关键词。以整体为基准,来判断单个关键的意思。

    洪雨的针对策略不用多说,就是还是相关关键词,所以至始至终《百度收录王》主打的就是相关性,就是针对seo来开发的。这么多年了,一直如此,效果也依然,同时论证了洪雨猜测的正确性。

    关于原创度,其实这个很难把控。

    以前,洪雨会认为100%的原创度是最好的,是最容易收录和排名的。后来发现不是的,因为这不符合逻辑。

    试想,一个网站,有哪个网站的网页是100%原创,或者98%以上原创?全互联网文章那么多,而且经过这么多年,百度数据库已经如此的庞大,你网站的文章居然一点点都没有匹配上的?

    假设真就如此,只能证明,你的文章有问题,是垃圾文章,哪怕你有那么一点点的可读性,就一定会有所匹配的。

    经过洪雨的测试,这种“纯原创”文章,貌似不错,收录好,相关性高,但排名不行,掉的也快。所以,一切以真实为准绳,完全模拟真实才是硬道理。

    原创度在70%~80%之间是比较好的,低了原创度不够,高了又不真实。

    上面洪雨也说了,这个原创度是很难把控的。可以负责人的说,市面上所有原创度检测的工具,检测的都不准。因为算法是百度定的,而且从来没有公开过,谁也不会计算原创度,都各个软件开发者自己瞎想的。

    为了解决这个问题,洪雨能够想到的唯一的点子,就是先创造出70%原创的文章,然后揉进去30%非原创的文章。

    虽然简单粗暴,但至少可控。效果没检测,以此篇为一个记录。

 

    

posted @ 2020-01-18 19:31  洪雨  阅读(413)  评论(0编辑  收藏  举报

友情链接

洪雨营销