使用robots.txt控制搜索引擎抓取--云超网络热线--网络安全|网站源码|技术教程|安全讨论|Asp|Javascript|Html|Oicq|Sql|数据库

	设为首页
	加入收藏
	帮助中心

当前位置：首页 >> 网站运营 >> 网站推广 >> 正文

资料搜索

热点信息

·如何扩大网站的影响力
·为什么要使用robots.txt
·网易竞价联盟3.4日强力推出
·禁止搜索引擎收录的方法
·使用robots.txt的注意事项
·总结几个产生上万流量的方…
·面向搜索引擎的内容管理系…
·网站策划五大趋势
·使用301 redirect避免Cano…
·robots.txt和Robots META标…

推荐信息

使用robots.txt控制搜索引擎抓取

〖编辑：Cloudy | 浏览：人次〗

　　搜索引擎数据库中的所有网页，都是由Robot程序自动抓取收录的。但我们网站上总会有部分私密性数据不希望被搜索引擎抓取，这时候，就需要robots.txt。

　　robots.txt 是一个标准文档，意在阻止搜索引擎的Spider(蜘蛛）从您的 Web 服务器下载某些或全部信息，控制Spider的搜索范围。robots.txt的设置很简单，只要用记事本或其他文本编辑器，依照自己的网站需求，设定一系列选项，然后将其上传到网站根目录即可。robots.txt的设置如下：

User-agent: 搜索引擎的spider代号
Disallow: 输入数据夹或文件名的路径

　　如设定所有的spider都能够搜索及抓取整个网站。

User-agent: *
Disallow:

　　如拒绝Google搜索及抓取整个网站，但允许其它的

User-agent: Googlebot
Disallow:

　　如拒绝所有的Spider

User-agent: *
Disallow: /

　　如拒绝所有的Spider搜索及抓取protect目录及seo目录下abc.html文件

User-agent: *
Disallow: /protect/
Disallow: /seo/abc.html

　　如拒绝google搜索及抓取protect目录及seo目录下abc.html文件，但允许其他的

User-agent: Googlebot
Disallow: /protect/
Disallow: /seo/abc.html

　　很简单吧？另有一点请记住，搜索引擎不会立即对robots.txt 文件所作的更改作出反应，必须等到搜索引擎下一次读取该文件。这段时间，依搜索引擎及具体网站情况，从几小时到几天不等。

录入时间：2006-10-26 11:28:15 [打印本页] [关闭窗口] [返回顶部]

特别声明：本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载，但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站，我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员，我们尽快予以更正。

本站所收录信息、社区话题、及本站所做之广告均属其个人行为，与本站立场无关