解读robots.txt

       robbots.txt是一个只针对搜索机器人也叫爬虫程序(spider)的解释性文本文件。通常搜索机器人抓取一个网站的内容前,会先检测网站根目录下是否存在robots.txt,如果文件存在,搜索机器人会读取robots.txt文本内容,robots.txt文件的作用是告诉搜索机器人,网站哪些目录或文件内容不需要被搜索引擎收录。如果搜索机器人未在网站根目录下找到robots.txt文件,则将按网页链接抓取内容。

      编写robots.txt文件时,robots.txt文件名本身必须是小写字母。robots.txt文件中用User-Agent元素标记适用的搜索机器人,例如:Googlebot,Baiduspider等,robots.txt文件中用Disallow元素声明哪些文件或目录不需要被搜索引擎搜录。

      下面的几行代码是百度的robots.txt文件内容,从这个示例中不难看出百度用两个User-Agent条目,百度分别对自己的搜索机器人和所有的搜索机器人声明了不需要被收录的目录和文件:

User-agent: Baiduspider

Disallow: /baidu
User-agent: *
Disallow: /shifen/dqzd.html

       从网站优化的角度看还是有必要为网站建立robots.txt文件的,可将不需要被用户查看的后台登录或维护等页面在搜索引擎中隐去,一方面增加了安全性,另一方面也令通过搜索引擎访问的用户能更准确地到达有效页面。如果你懒得去打开记事本编辑robots.txt,还可以通过一些网站提供的robots.txt在线生成工具,来轻松创建自己的robots.txt文件。