破解百度原创文章识别的和稀泥手段

洪雨写的《百度收录王》这次更新的幅度比较大，终于迎来了5.6版本。

本来也不想更新的，但是为了配合刚写的目录网站建站工具，想让收录更好一些，就做了一下改动。

算法还是针对当下比较流行的指纹算法。

身在这个行业里，洪雨发现很多平台有原创文章的功能，而且手法各不一样。很多所谓的智能AI文字处理，其实都是用翻译的手法，忽悠门外汉。而且可笑的是，几乎全部都调用的谷歌翻译。

是认为百度翻译不香吗？认为百度自己能认识自己翻译的？

呵呵，想多了。

还有一种手段是比较厉害的，原理还是同义词替换，但是这种是半自动替换，就是文章的每个词都可以手动点击，然后弹出很多这个词的同义词，你手动选择。

这种人脑参与的同义词替换，可以让文章几乎全改一遍，语意不变，还很通顺。

缺点是，效率跟不上，无法满足站群百万文章需求。

其实百度已经有能力分析单句的词义，这个功能还能试用，洪雨忘了在哪看到这个功能的，反正当时也震惊了一下。觉得百度已经这么智能了吗？

但，也仅限于单句处理。一个句子放到不同的文章里，可能意思就完全变了，一个词放到不同的句子里，意思可能就完全不一样。所以，要想完全玩转汉语，还有很长的路要走。

百度的主要算法，还是根据关键词来计算分类分数，从大到小，再从小到大来理解全部的意思。

先统计全站关键词，再统计单篇的，然后到段落的，到句子的，再到单个关键词。以整体为基准，来判断单个关键的意思。

洪雨的针对策略不用多说，就是还是相关关键词，所以至始至终《百度收录王》主打的就是相关性，就是针对seo来开发的。这么多年了，一直如此，效果也依然，同时论证了洪雨猜测的正确性。

关于原创度，其实这个很难把控。

以前，洪雨会认为100%的原创度是最好的，是最容易收录和排名的。后来发现不是的，因为这不符合逻辑。

试想，一个网站，有哪个网站的网页是100%原创，或者98%以上原创？全互联网文章那么多，而且经过这么多年，百度数据库已经如此的庞大，你网站的文章居然一点点都没有匹配上的？

假设真就如此，只能证明，你的文章有问题，是垃圾文章，哪怕你有那么一点点的可读性，就一定会有所匹配的。

经过洪雨的测试，这种“纯原创”文章，貌似不错，收录好，相关性高，但排名不行，掉的也快。所以，一切以真实为准绳，完全模拟真实才是硬道理。

原创度在70%~80%之间是比较好的，低了原创度不够，高了又不真实。

上面洪雨也说了，这个原创度是很难把控的。可以负责人的说，市面上所有原创度检测的工具，检测的都不准。因为算法是百度定的，而且从来没有公开过，谁也不会计算原创度，都各个软件开发者自己瞎想的。

为了解决这个问题，洪雨能够想到的唯一的点子，就是先创造出70%原创的文章，然后揉进去30%非原创的文章。

虽然简单粗暴，但至少可控。效果没检测，以此篇为一个记录。

posted @ 2020-01-18 19:31 洪雨阅读(435) 评论(0) 收藏举报

刷新页面返回顶部

洪雨编程笔记