使用robots.txt的注意事项--云超网络热线--网络安全|网站源码|技术教程|安全讨论|Asp|Javascript|Html|Oicq|Sql|数据库

	设为首页
	加入收藏
	帮助中心

当前位置：首页 >> 网站运营 >> 网站推广 >> 正文

资料搜索

热点信息

·如何扩大网站的影响力
·为什么要使用robots.txt
·网易竞价联盟3.4日强力推出
·禁止搜索引擎收录的方法
·使用robots.txt的注意事项
·总结几个产生上万流量的方…
·面向搜索引擎的内容管理系…
·网站策划五大趋势
·使用301 redirect避免Cano…
·robots.txt和Robots META标…

推荐信息

使用robots.txt的注意事项

〖编辑：Cloudy | 浏览：人次〗

　　通过我们之前的介绍，相信朋友们清楚了网站为什么要使用robots.txt及如何使用robots.txt控制搜索引擎的抓取。robots.txt的创建很简单，只需设置User-agent与Disallow两项内容，其中User-agent项设置特定的搜索引擎Spider，Disallow项设定不允许Spider抓取和索引的内容。尽管如此，笔者却常常见一些设置不当的例子，在此把robots.txt有关的注意事项介绍一下：

robots.txt文件
　　robots.txt只能存放于网站的根目录下，置于除此之外的任何地方均不会被Spider发现。

　　每个网站，或每个域名（包括子域名），只能有一个robots.txt。

　　文件名“robots.txt”为小写字母，其他如Robots.txt或robots.Txt是不正确的，命名错误将会被Spider忽略。

　　正如上篇文章中介绍的，Spider在网站内找不到robots.txt时将会被重定向到404 错误页面，这便有可能阻碍Spider抓取和收录页面。虽然这并不一定会发生，但很多时候我们没必要冒这样的风险，一般来说，即使我们对网站的所有内容都没有限制，对所有的搜索引擎Spider 都欢迎，最好也在根目录下创建一个robots.txt文件：

User-agent: *
Disallow:

robots.txt的语法规则
　　在Disallow项中使用小写字母，即文件名和目录名使用小写字母，特别在对大小写敏感的Unix下更要注意。

　　robots.txt惟一支持的通配符是在User-agent使用的“*”，其代表所有的Spider。除此之外，别的通配符均不可用。这方面的错误常见于在文件名或目录名中使用通配符。

　　robots.txt的限定项

　　在User-agent和Disallow项的设定中，每行只允许有一个设定值，同时，注意不要有空行。至于行数，则没有限制，理论上说可以根据需要创建具有无数行的robots.txt。

　　下面即是一个错误的例子

User-agent: *
Disallow: /dir1/ /dir2/ /dir3/

　　正确设置应为：

User-agent: *
Disallow: /dir1/
Disallow: /dir2/
Disallow: /dir3/

　　robots.txt中的文件与目录

　　既定某个文件拒绝索引时，格式为文件名(包括扩展名)，其后无“/”，而限定目录时，则需在目录名后加“/”。如下面的示例：

User-agent: *
Disallow: /file.html
Disallow: /dir/

　　特别注意的是，不要省略掉目录名后的“/”，不然，Spider便极有可能误读相应的设置。

　　robots.txt中限定项的顺序

　　请看下方的示例：

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:

　　该设定本意是想允许Google访问所有页面，同时禁止其他Spider的访问。但在这样的设置下，Googlebot在读取前2行后便会离开网站，后面对其的“解禁”完全失去了意义。正确的格式应为：

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

　　robots.txt中的注释

　　尽管在robots.txt的标准中，可以在限定项的后面使用“#”添加注释，如下面的例子

User-agent: Googlebot #这是对Google的设置
Disallow:

　　但很多研究与测试表明，不少Spider对这样格式的解读存在问题。为确保其能更好地工作，最好采用如下设置：

#这是对Google的设置
User-agent: Googlebot
Disallow:

录入时间：2006-10-26 11:41:29 [打印本页] [关闭窗口] [返回顶部]

特别声明：本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载，但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站，我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员，我们尽快予以更正。

本站所收录信息、社区话题、及本站所做之广告均属其个人行为，与本站立场无关