SEO

百度 SEO 优化基础知识

百度移动搜索建站优化白皮书

网站建设

  1. 域名

网站域名选择,不仅能快速直观让用户了解网站定位,域名设置,更会影响搜索对网站的抓取情况。因此,选择简单好记且安全的域名,是网站搭建前期最重要的一步。

1.1. 域名选择的注意事项

网站搭建之初,对网站域名选择,建议域名独立,简单好记;独立移动站域名选择也遵循此规则。

移动站的域名需与PC站域名分开,移动站不建议与PC站公用一个域名;比如PC网站域名建议是www.test.com,对应移动站的域名是m.test.com,而不是www.test.com/m/的形式;如果是自适应网站可不考虑此情况。

  • 建议使用比较常见的域名后缀,如.com.cn.net等;
  • 如果网站追求个性化使用罕见域名后缀,为了保证搜效果,请来百度搜索资源平台(原百度站长平台)进行站点验证。

举例来说,blog形式站点,有的网站给到每个blog作者单独的三级域,但如果作者发布频率较低,整个三级域都是更新频率很低的状态,过低的发布频率对搜索引擎来说是不友好的。

2.2 内容发布系统

内容发布系统,无论是网站自建还是使用第三方建站系统,百度都是支持的;所有发布系统,除遵循有条理、逻辑清晰建站,还要注意网站搭建的安全问题,避免网站安全隐患,才能更好的提升网站价值。

2.2.1 自建内容发布系统

  • 主体内容清晰且能够很好的识别与分辨

  • 后台发布时间切勿自行设置,遵循发布时间与展示时间一致;

  • 内容发布系统中各表单设置合理,如对tag标签的设置不宜过多(3-5个就够了)、不宜罗列关键词;

  • 分类划分明确,分类主题的文章对应发布到相应分类下;

  • 题文相符,切勿挂羊头卖狗肉,欺骗搜索引擎流量,损伤用户体验;

  • 段落清晰合理、字体大小适中、字体颜色切勿使用与背景色相近的颜色;(有作弊嫌疑)

  • 发布内容目录划分清晰,具体参考2.3章节中网站结构设置。

2.2.2 第三方发布系统

  • 模板主题不建议频繁更换;

  • 类似wordpress等系统,不建议使用过多插件,会影响网页打开速度;

  • URL伪静态的处理,命名规范、层级清晰;

  • 开源建站系统存在较多安全隐患,使用过程中务必做一些安全上的设置和优化。

2.2.3 页面生成规范

  • 网页结构清晰、各分类名称设置醒目;
  • 导航、面包屑导航设置合理,机器可读、位置突出,用户能很好得知所访问页面在网站中的位置;
  • 不存在遮挡主体内容的广告元素;
  • 无三俗图文、音频元素;
  • 请求中的content-type需要根据对应的类型进行正确设置 如 HTML 文件的 text/html

2.3 网站结构

合理设置网站结构,是网站被快速抓取、获得搜索流量的基础;因网站结构设置不合理,导致网站无法被快速识别抓取的事例在百度日常反馈中经常见到,且网站换域名也会对网站造成一定损失,故希望各位站长从建站之初重视网站结构设置,避免不必要的损失。

2.3.1 URL结构设置

  • 在搭建网站结构、制作URL时,尽量避开非主流设计,追求简单美即可,越简单越平常,越好,例如URL中出现生僻字符,如不常见的“II”,会引起搜索引擎识别错误;
  • URL长度要求去掉协议头http(s)😕/之后的URL长度不要超过256个字节;
  • 谨慎使用#参数,有效的参数不能放在#后面;可能被截断导致网页抓取异常。

2.3.2 目录结构设置

网站目录结构搭建是否合理,影响搜索引擎对网站的抓取情况,这里需要提到的是,网站目录结构无论是扁平化还是树形结构,一般都可以被搜索引擎发现,但有以下几点注意事项:

  • 建议不同内容放在不同目录或子域下,域名划分在2.1.2网站域名划分章节中有详细提到;
  • 不要使用孤岛链接,孤岛链接很难被搜索引擎快速发现;若网站已存在大量孤岛链接,建议使用搜索资源平台的链接提交工具向百度提交数据;(没有内链支撑的页面被称之为orphan pages(孤岛页面)
  • 重要内容不建议放在深层目录,若该内容没有大量内链指向,搜索引擎很难判断该页面的重要程度。

2.4 服务商/自建服务器

2.4.1 域名服务

  • 站长在域名部署中请仔细各环节问题,不要出现域名部署错误情况

  • 不建议网站进行泛解析,若网站爆发大规模泛解析,且影响恶劣,则会受到搜索策略打压;

  • 尽量选择优质域名服务商。

2.4.2 服务器

  • 中文网站不建议选择国外服务器;

  • 服务器的稳定性非常重要,需要保持访问流畅,服务器是否稳定,可以使用百度搜索资源平台(原百度站长平台)抓取异常、抓取诊断工具进行检测维护。(服务器经常无法访问或者死机,对爬虫来讲都是致命伤害);

  • 服务器选择除了自身的稳定性外,实际上还要考虑网站的业务量,例如带宽、内存、CPU是否能够承受访问量,突发大流量情况下是否可以正常访问;

  • 服务器主机设置,需要注意是否有禁止爬虫抓取的设置、或存在404错误信息设置,这些情况都会引起不必要的搜索引擎抓取判断异常,为网站带来不必要的损失。

2.4.2.1 虚拟主机

  • 主机商是否存在限制搜索引擎访问的情况;

  • 主机商的资质是否符合要求;

  • 主机商的技术沉淀是否足够,建议选择品牌较大的主机商;

  • 主机商托管的机房的物理条件和网络条件是否足够优秀;

  • 主机商的技术和客服支持情况是否够好;

  • 主机商是否会存在超容量的情况;

  • 主机商是否存在违规接入高风险站点的问题或同一IP下是否会存在高风险站点的情况;

  • 国内站点建议选购国内云主机建站。

  • 注意虚拟主机是否有将爬虫IP拉入黑名单,关于百度UA,可以参考3.1.2.1百度蜘蛛章节;

2.4.2.2 独立主机

  • 建议使用独立IP地址的主机;
  • 建议使用规模较大机构的主机,在安全配置、稳定性上相对更好;
  • 对IDC服务商的建设标准需要一定的考虑,例如防火、防盗、是否有UPS保证、室内温控、消防等;
  • IDC服务商的服务质量和技术是否达标,是否24h值班,是否能够协助排查一些故障、免费重启重装系统等;
  • IDC机房的资质是否齐全,存放站点是否有高风险站点或服务器存在。

2.4.3 安全服务

2.4.3.1 HTTPS

可以在搜索资源平台-网站支持-HTTPS认证工具中提交网站的HTTPS数据,便于百度更好抓取识别网站。关于HTTPS认证工具详解

2.4.3.2 网站防止被黑对策

被黑之后如何处理

  • 确认网站被黑后,SEO人员除了要推动技术人员快速修正外,还需要做一些善后和预防的工作;
  • 网站如有变更页面,变更页面建议使用链接提交工具向百度提交数据;
  • 立即停止网站服务,避免用户继续受影响,防止继续影响其他站点;
  • 如果同一主机提供商同期内有多个站点被黑,可以联系主机提供商,敦促对方做出应对;
  • 清理已发现的被黑内容,将被黑页面设置为404死链,并通过百度搜索资源平台(原百度站长平台)死链提交工具进行提交。(我们发现有些站点采用了将被黑页面跳转至首页的做法,非常不可取。);
  • 排查出可能的被黑时间,和服务器上的文件修改时间相比对,处理掉黑客上传、修改过的文件;检查服务器中的用户管理设置,确认是否存在异常的变化;更改服务器的用户访问密码。注:可以从访问日志中,确定可能的被黑时间。不过黑客可能也修改服务器的访问日志;
  • 做好安全工作,排查网站存在的漏洞,防止再次被黑。

2.4.4 网络服务

2.4.4.1 CDN

  • 一是部分CDN服务商硬件投入不够,经常出现不稳定情况,会导致大量的蜘蛛抓取失败,从而影响网站抓取效果,有的甚至影响了索引量数据;所以选择有实力的CDN服务商很重要;

  • 二是缓存机制在网站出现死链、无法打开、被黑等情况的时候起到了推波助澜的作用。短时间内产生了一些不利快照,影响了排名。这种情况不用担心,及时清理源文件和CDN缓存,并在百度搜索资源平台(原百度站长平台)提交相关死链数据等方法进行挽回,是可以恢复的。

3 网站优化

3.1 抓取友好性

  • 网站更新频率:经常更新高价值的站点,优先抓取;
  • 受欢迎程度:用户体验好的站点,优先抓取;
  • 优质入口:优质站点内链接,优先抓取;
  • 历史的抓取效果越好,越优先抓取;
  • 服务器稳定,优先抓取;
  • 安全记录优质的网站,优先抓取;

3.1.1 URL规范

3.1.1.1 参数

  • 参数不能太复杂;
  • 不要用无效参数,无效参数会导致页面识别问题,页面内容最终无法在搜索展示

3.1.2 链接发现

3.1.2.1 百度蜘蛛

移动UA 1:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/ search/ spider.html)

移动UA 2:

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

PC UA 1:

Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

PC UA 2:

Mozilla/5.0(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/ spider.html)

反查IP

  • 在Linux平台下,可以使用hostip命令反解IP
  • 在Windows平台下,可以使用nslookup ip命令反解IP
  • 这里需要再提出一点,建议使用DNS更换为8.8.8.8后进行nslookup反向解析,否则很容易出现无返回或返回错误的问题。
  • 手工提交:如果不想通过程序提交,那么可以采用此种方式,手动将链接提交给百度;
  • 自动推送:是轻量级链接提交组件,将自动推送的JS代码放置在站点每一个页面源代码中,当页面被访问时,页面链接会自动推送给百度,有利于新页面更快被百度发现。

3.1.2.2 链接提交

  • 主动推送:是最为快速的提交方式,建议将站点当天新产出链接立即通过此方式推送给百度,以保证新链接可以及时被百度抓取
  • Sitemap:网站可定期将网站链接放到Sitemap中,然后将Sitemap提交给百度。百度会周期性的抓取检查提交的Sitemap,对其中的链接进行处理,但抓取速度慢于主动推送;

3.1.3 网页抓取

关于移动页面的访问速度,百度搜索资源平台(原百度站长平台)已于2017年10月推出过闪电算法,针对页面首页的打开速度给予策略支持。闪电算法中指出,移动搜索页面首屏加载时间将影响搜索排名。移动网页首屏加载时间在2秒之内的,在移动搜索下将获得提升页面评价优待,获得流量倾斜;同时,在移动搜索页面首屏加载非常慢(3秒及以上)的网页将会被打压。

3.1.3.2 返回码

HTTP状态码是用以表示网页服务器HTTP响应状态的3位数字代码。各位站长在平时维护网站过程中,可能会在站长工具后台抓取异常里面或者服务器日志里看到各种各样的响应状态码,有些甚至会影响网站的SEO效果,例如重点强调网页404设置,百度搜索资源平台(原百度站长平台)中部分工具如死链提交,需要网站把内容死链后进行提交,这里要求设置必须是404。

  • 301/302的关键区别在于:这个资源是否存在/有效;

  • 301指资源还在,只是换了一个位置,返回的是新位置的内容;

  • 302指资源暂时失效,返回的是一个临时的代替页(例如镜像资源、首页、404页面)上。注意如果永久失效应当使用404。

  • 这里不得不提的一点,很多站长想自定义404页面,需要做到确保蜘蛛访问时返回状态码为404,若因为404页面跳转时设置不当,返回了200状态码,则容易被搜索引擎认为网站上出现了大量重复页面,从而对网站评价造成影响;

3.1.3.3 robots

3.1.3.4 死链

百度搜索资源平台(原百度站长平台)推出死链提交工具,帮助网站提交死链数据

什么是死链及死链的标准

  • 协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等;
  • 内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面;
  • 跳转死链:指页面内容已经失效,跳转到报错页,首页等行为

3.1.4 访问稳定性

3.1.5.1 资源可穷尽

一般来说网站的内容页面是可穷尽的,万级别,百万级别甚至亿级别,但一定是可穷尽的。而现实中确实存在这样一些网站,爬虫针对这些网站进行抓取提链时会陷入"链接黑洞";通俗的讲就是网站给爬虫呈现的链接不可穷尽;典型的是部分网站的搜索结果页,不同的query在不同anchor下的a标签链接不一样就导致了"链接黑洞"的产生,所以严禁URL的生成跟用户的访问行为或者搜索词等因素绑定。

3.2.1.1 页面标题 百度搜索内容质量白皮书——网页标题作弊详解

  • 文不对题,网站标题与正文有明显不符合,误导搜索用户点击,对搜索用户造成伤害
  • 大量堆砌,网站标题中出现大量堆砌关键词的情况也十分不提倡,
  • 还有一种情况,是网页中的HTML代码有误,导致百度无法解析出摘要,所以有时大家会看到某些结果的摘要是乱码(当然这种情况很少见),所以也请站长注意代码规范。

关于主体内容过长的示例分析:

  • 网站针对爬虫爬取做的优化,是直接将图片编码后放到HTML中,导致页面长度过长,建议网站源码长度在128k之内
  • 站点优化后将主体内容放于最后,图片却放于前面;
  • 爬虫抓取内容后,页面内容过长被截断,已抓取部分无法识别到主体内容,最终导致页面被认定为空短而不建索引。

3.2.1.3 网页发布时间

  • 网页内容尽可能加上产出时间,严格说是内容发布时间;且时间尽量全,时间格式为年-月-日 时:分:秒;

例:2017-08-12 10:23:06

  • 网页上切忌乱加时间,这样容易造成页面时间提取问题,或搜索引擎判断提取时间不可信,从而降低对网页的展现。

3.2.1.4 canonical标签

canonical标签的目的

在PC互联网时代,canonical标签的作用主要是用来解决由于网址形式不同内容相同而造成的内容重复问题。而在移动时代,canonical标签被百度搜索赋予了更多的意义,在原来的作用基础上,又起到了相同内容的移动页和PC页之间的关联作用;让移动资源更容易继承PC资源的各种特征,从而快速生效移动网页数据。

3.3.2 外链建设

  • 站点进行外链建设时,建议是有真实推荐意图,并且指向那些熟悉的、被认可的、内容相关的外部页面;不建议推荐与本站点页面内容无关的外链内容。也不建议乱推荐外链、交换外链互联、指向作弊站的行为(这些很可能被超链策略反向识别成垃圾作弊站点进行打压)。

3.3.3 内链建设

与外链类似,建议站长善于使用nofollow标签,既对搜索引擎友好,又可避免因垃圾link影响到站点本身的权重。

3.3.4 anchor

anchor描述:尽可能使用典型的,有真实意义的anchor。anchor描述要与超链接的页面内容大致相符,避免高频无意义anchor的使用,另外同一个URL的anchor描述种类不宜过多,anchor分布越稀疏会影响搜索排名。

4 百度专属SEO工具

百度搜索资源平台域名地址:http://ziyuan.baidu.com/

4.2.3 抓取频次工具

  • 强调1:调整抓取频次上限不等于调高抓取频次;

  • 强调2:建议站长慎重调节抓取频次上限值,如果抓取频次过小则会影响百度蜘蛛对网站的及时抓取,从而影响索引。

4.4 搜索展现工具

4.4.1 站点logo

站点申请百度搜索下的logo展示,可以通过搜索资源平台——站点属性——站点logo中进行提交,此工具为免费展示类工具。

4.5.1 网站改版工具

使用改版工具提交改版规则的前提:

  • 站点的URL发生了变化,不论是域名还是站点的目录,或者结果页URL发生变化,改版工具都提供支持,这里单独说一点,页面内容发生变化的不在改版工具处理的范围内;

  • 如果站点URL的路径和参数部分都没有变化,仅仅是域名改变的,只需要知道每个改版前域名和改版后域名的对应关系,不要有整理遗漏,目前平台不支持主域级别的改版规则提交,需要每个域名都单独提交生效;

  • 如果站点URL的路径和参数部分发生变化,但是路径和参数都是有规律可寻的,可以通过规则表达式来整理改版前和改版后的URL对应关系;

  • 如果站点的URL改变没有任何规律的情况,需要准确整理出改版前URL和改版后URL的对应关系。

4.5.3 HTTPS认证工具

使用HTTPS认证工具的收益:

网站通过HTTPS认证后,站点在百度搜索的所有快照都会变成HTTPS格式,蜘蛛也会优先抓取HTTPS的链接,让用户在搜索中获得更安全的链接。

  • 保证HTTPS站点正常访问,且页面内引入资源为HTTPS格式,包括引入的视频、图片、CSS、JS等元素;如果网站没有全站HTTPS,申请百度搜索资源平台(原站长平台)HTTPS认知是不会通过的,但是如果系统没有检测到这个情况而通过验证的话,会导致没改造的这部分页面产生死链,所以认证前一定要检测好;
  • 如果站点存在HTTP和HTTPS两种协议的页面,必须将HTTP的URL 301到HTTPS的URL上,仅有HTTPS站点的可以直接认证;
  • 必须保证HTTP站点与HTTPS的链接一一对应,没有HTTPS对应的HTTP链接可能会被判断成死链接。

注意以下几点,轻松应对网站换域名:

  • 换域名后,建议两个域名同时保存一段时间;

  • 网站换域名后,需要把两个网站内容做好301的跳转,强调一点,需要做到正文页对正文页一一对应的跳转,而不是将旧域名内容全部跳转到新域名的首页;

  • 网站换域名后,需使用改版工具,在搜索资源平台(原站长平台)提交数据,便于搜索识别新旧域名之间关联;

  • 建议网站选择在用户访问网站较少的时间段换域名,如长假期间等。

5.1.2 换域名对网站的影响

  • 总体来说网站换域名会影响网站排名,不推荐更换域名。若品牌需要等原因,必须换域名,建议做好301跳转规则后,在平台工具提交改版规则和死链处理;
  • 网站从目录级更换为二级域名,如之前为www.baidu.com/news/,需更新为news.baidu.com,这类现象通用视为换域名;同样需要需要在平台工具提交改版规则和做好301;
  • 网站页面结构改版,仅是页面样式发生变化,不会对排名有影响;无需使用改版工具;
  • 强烈建议不要把所有旧域名页面301到新域名首页,建议做新旧域名之间正文页对正文页的301;
  • 网站换域名后,搜索资源平台(原站长平台)的VIP权限,站点logo、站点子链不会同步到新域名中,需要网站单独申请。

推荐网站

站点搜索记录

posted @ 2022-04-27 11:01  葫芦娃啊  阅读(191)  评论(0编辑  收藏  举报