站内搜索
-
近期文章
近期评论
- coupons 发表在《SEO之搜索引擎原理》
- 动漫周边 发表在《RentItToday.com:在线租赁服务网站》
- Dix Mcbridge 发表在《AloofDoof.com和朋友分享涂鸦的乐趣》
- cartier 发表在《BizBrag.com 中小企业的社会化网络营销平台》
- 土木坛子 发表在《Google+1按钮对SEO的影响》
- 土木坛子 发表在《个人博客登录DMOZ经验谈》
- 博客分享插件 发表在《AloofDoof.com和朋友分享涂鸦的乐趣》
- 3dyj 发表在《AloofDoof.com和朋友分享涂鸦的乐趣》
- 万书华博客 发表在《AloofDoof.com和朋友分享涂鸦的乐趣》
- dyfkw 发表在《Groovor:分享成就的图片服务网站》
日归档:2007 年 10 月 09 日
解读robots.txt
robbots.txt是一个只针对搜索机器人也叫爬虫程序(spider)的解释性文本文件。通常搜索机器人抓取一个网站的内容前,会先检测网站根目录下是否存在robots.txt,如果文件存在,搜索机器人会读取robots.txt文本内容,robots.txt文件的作用是告诉搜索机器人,网站哪些目录或文件内容不需要被搜索引擎收录。如果搜索机器人未在网站根目录下找到robots.txt文件,则将按网页链接抓取内容。 编写robots.txt文件时,robots.txt文件名本身必须是小写字母。robots.txt文件中用User-Agent元素标记适用的搜索机器人,例如:Googlebot,Baiduspider等,robots.txt文件中用Disallow元素声明哪些文件或目录不需要被搜索引擎搜录。 下面的几行代码是百度的robots.txt文件内容,从这个示例中不难看出百度用两个User-Agent条目,百度分别对自己的搜索机器人和所有的搜索机器人声明了不需要被收录的目录和文件: User-agent: Baiduspider Disallow: /baidu User-agent: * Disallow: /shifen/dqzd.html 从网站优化的角度看还是有必要为网站建立robots.txt文件的,可将不需要被用户查看的后台登录或维护等页面在搜索引擎中隐去,一方面增加了安全性,另一方面也令通过搜索引擎访问的用户能更准确地到达有效页面。如果你懒得去打开记事本编辑robots.txt,还可以通过一些网站提供的robots.txt在线生成工具,来轻松创建自己的robots.txt文件。