WordPress站点之Robots.txt的优化及写法介绍

发布时间：2022-06-21 13:19 所属栏目：61 来源：互联网

导读：Robots协议（也称为爬虫协议、机器人协议等）的全称是网络爬虫排除标准（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓

　　Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

　　搜索引擎机器人访问网站时，首先会寻找站点根目录有没有 robots.txt文件，如果有这个文件就根据文件的内容确定收录范围，如果没有就按默认访问以及收录所有页面。另外，当搜索蜘蛛发现不存在robots.txt文件时，会产生一个404错误日志在服务器上，从而增加服务器的负担，因此为站点添加一个robots.txt文件还是很重要的。

　　知道Robots协议的作用后，下面具体说一下WordPress站点如何编写robots.txt文件。

　　这是由WordPress自动生成的，意思是告诉搜索引擎不要抓取后台程序文件。

　　但这是远远不够的，比较完整的WordPress站点robots.txt文件内容如下：

　　User-agent: *
　　
　　Disallow: /wp-admin/
　　
　　Disallow: /wp-content/
　　
　　Disallow: /wp-includes/
　　
　　Disallow: page/
　　
　　Disallow: /tagtrackback
　　
　　Disallow: /feed
　　
　　Disallow: ?s=*\
　　
　　Disallow: /attachment/
　　使用方法：新建一个名称为robots.txt文本文件，将上面的内容放进去，然后上传到网站根目录即可。

　　下面分别解释一下各项的作用：

　　1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/

　　用于告诉搜索引擎不要抓取后台程序文件页面。

　　2、Disallow: page/和Disallow: /tagtrackback

　　禁止搜索引擎抓取收录trackback等垃圾信息

　　5、Disallow: /feed、Disallow: ?s=*\

　　禁止搜索引擎抓取站内搜索结果

　　7、Disallow: /*?*

　　禁止搜索抓取动态页面

　　8、Disallow: /attachment/

　　禁止搜索引擎抓取附件页面，比如毫无意义的图片附件页面。

　　上面只是些基本的写法，当然还有很多，不过够用了。

（编辑：ASP站长网）

WordPress站点 之Robots.txt的优化及写法介绍

WordPress站点之Robots.txt的优化及写法介绍