WordPress搜索引擎协议robots.txt怎么写

如果你有留意,在查看博客页面源代码时,title里有有一个带?的动态链接,百度很有可能会收录它,一个页面两个收录,我就碰到过这样的情况。

WordPress搜索引擎协议robots.txt怎么写

robots.txt可以限制或阻止搜索引擎对网站某些页面或目录的访问与抓取,在搜索引擎访问网站时会,会先查看你的网站根目录下有没有robots.txt协议文件,有的话会按照robots.txt设置的指令进行爬行。

不想被收录的页面、图片、目录都可以编写robots.txt协议来完成,其中WordPress博客优化就必须使用robots.txt文件,Wordpress的固定链接修改后,一个页面存在两个链接,搜索引擎会收录这两个链接,这并不利于SEO,就需要设置wordpress的robots.txt文件,禁止搜索引擎访问和搜录原来带?的动态链接。

首页要了解下robots.txt的代码意思,百度、谷歌等搜索引擎的协议编写是一样的,你的博客是否进行了WordPress固定链接伪静态化设置,这直接决定着写robots.txt页面的格式,下边就介绍下WordPress的robots.txt写法。

robots.txt写法
博主根据自己的固定链接格式来写入robots.txt文件,对民网使用的是伪静态化固定链接/%postname%/,这种链接形式编写robots.txt如下。

允许所有的搜索引擎抓取,虽然使用百度搜索的人多,但还是有20%的人使用其它搜索引擎,能够为博客带来更多的流量。

1、允许所有蜘蛛爬行

User-agent: *

2、禁止抓取根目录中的网站文件,能够提高蜘蛛爬行速度。

Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /wp-login.php

3、禁止抓取订阅页面,订阅页面与日志页面重复。

Disallow: /feed/
Disallow: /*/feed/
Disallow: /comments/feed/

4、禁止抓取收录评论页,有的评论不和谐或与文章内容重复。

Disallow: /*/comment-page-*

5、禁止抓取搜索页面,搜索页面列表与日志列表重复。

Disallow: /?s=*
Disallow: /*/?s=*

6、禁止抓取通告页面,机器人在评论栏留的垃圾留言,如果关闭了trackback功能,就不用编写这个。

Disallow: /*/trackback/
Disallow: /*/*/trackback/
Disallow: /wp-trackback.php*

7、禁止抓取分类页面除第一页之外的分页,修改过固定链接的话,闭屏/?p=*

Disallow: /category/*/page/
Disallow: /?p=*

8、禁止抓取除第一页之外的分页,修改过固定链接的话,闭屏/?tag=*

Disallow: /tag/*/page/
Disallow: /?tag=*

9、禁止抓取作者页面,与日志列表索引重复。

Disallow: /author/

10、禁止抓取page分页,与日志列表索引重复。

Disallow: /page/

11、禁止抓取日期存档2018年的页面,与日志列表索引重复。

Disallow: /2018/

12、在最后一行附上网站地图地址,便于蜘蛛爬行。

Sitemap: http://xxside.com/sitemap.xml

如果是禁止某些蜘蛛收录,比如禁止就是这样的格式。

User-agent: Baiduspider
Disallow:
User-agent: Sosospider
Disallow:
User-agent: sogou spider
Disallow:
User-agent: YodaoBot
Disallow:
User-agent: Googlebot
Disallow:
User-agent: Bingbot
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: Teoma
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: twiceler
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: Scrubby
Disallow: /
User-agent: Robozilla
Disallow: /
User-agent: Gigabot
Disallow: /
User-agent: grapeshot
Disallow: /
User-agent: dotbot
Disallow: /
user-agent: AhrefsBot
disallow: /
User-agent: Exabot
Disallow: /
User-agent: Bingbot
Disallow: /
User-agent: YisouSpider
Disallow: /
User-agent: googlebot-image
Disallow: /
User-agent: googlebot-mobile
Disallow:
User-agent: yahoo-mmcrawler
Disallow: /
User-agent: yahoo-blogs/v3.9
Disallow: /
User-agent: psbot
Disallow: /
User-agent: *
Disallow:
Disallow: /bin/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /wp-login.php
Disallow: /trackback/
Disallow: /xmlrpc.php
Disallow: /category/
Disallow: /tag/
Disallow: /author/
Disallow: /feed
Disallow: /search/
Disallow: /2018/
Disallow: /2017/
Disallow: /page/
Disallow: /*?*
Disallow: .png$
Crawl-delay: 5
Sitemap: http://www.xxside.com/sitemap.xml

robots.txt怎么写

先创建robots.txt的文档,鼠标右键→创建文本文档→写入协议代码→把文档改名为robots→上传到网站根目录,就这么简单,日后搜索引擎会按照根目录中的robots.txt进行爬行。

一旦修改了固定链接,就必须设置robots.txt文件,从而避免wordpress页面重复收录,下边是对民网/%postname%/链接格式下的robots.txt写法!

User-agent: *
Disalow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /wp-login.php
Disallow: /feed/
Disallow: /*/feed
Disallow: /comments/feed/
Disallow: /?s=*
Disallow: /*/?s=*
Disallow: /wp-trackback.php*
Disallow: /*/comment-page-*
Disallow: /category/
Disallow: /author/
Disallow: /?p=*
Disallow: /tag/
Disallow: /page/*/
Disallow: /trackback/
Disallow: /xmlrpc.php
Disallow: /category/
Disallow: /author/
Disallow: /feed/
Disallow: /search/
Disallow: /*?*
Crawl-delay: 5
Request-rate: 30/1m
Sitemap: http://xxside.com/sitemap.xml/
User-agent: ia_archiver
Disallow:
User-agent: Mediapartners-Google
Disallow:
User-agent: Baiduspider
Disallow:
User-agent: YisouSpider
Disallow: /
User-agent: grapeshot
Disallow: /
User-agent: bingbot
Disallow: /

PS:以上不一定全用上,可以选择性编写,在编写robots.txt时一定要谨慎,代码错误的话会影响网站的收录。

原创文章,作者:Tony,如若转载,请注明出处:https://www.xxside.com/140.html

思德心语,壹群:799239814

(0)
上一篇 2019年9月11日 上午11:28
下一篇 2019年9月11日 上午11:58

相关推荐

发表评论

登录后才能评论