搜索引擎每天访问你的网站,你肯定很开心。但如果搜索引擎把你一些不想公开的秘密也被抓取去了,你就不是那么爽了。
什么是 Robots.txt?
robot是指机器人,在搜索引擎里,是指自动抓取网站内容的程序。robots.txt就是放在网站目录里的一个文件,搜索引擎的robot抓取网站的时候,会第一时间,去访问这个文件,并根据robots.txt里的指令去决定抓取什么内容和不抓取什么内容。
Robots.txt对搜索引擎来说,并不是强制性的,目前 也只有google等几家搜索引擎实际支持该协议。但要注意一点,Robots.txt就像门口上写的“禁止入内”,只是给别人一个提示作用,实际上阻止别人入内的还是得靠你结实的门口!
robots.txt的位置是固定放在域名的根目录,如果你的域名是www.abc.com,那么robots.txt的位置就应该是 www.abc.com/robots.txt 。
Robots.txt的结构:
robots.txt的结构很简单,类似:
User-agent:
Disallow:
"User-agent"是搜索引擎的爬虫的名称,可以用*号来表示所有的爬虫。Disallow:后面是跟上你不希望搜索引擎访问的地址。
如
User-agent: *
Disallow:/admin/
表示所有的搜索引擎都不要来访问网站上的/admin/目录。
Robots.txt的常见错误:
看看这个文件:
User-agent: *
Disallow: /js/
User-agent: Googlebot
Disallow: /images/
Disallow: /js/
假如Googlebot访问到这个文件,它读取到第一条规则,它就会忽略后面的规则了。
所以正确的写法应该是把有更强针对性的规则放在前面,如下:
User-agent: Googlebot
Disallow: /images/
Disallow: /js/
User-agent: *
Disallow: /js/