网站robots.txt的重要性及语法
发表时间:2021-05-19 13:52:14
文章作者:管理员
浏览次数:1098
robots.txt,是一个给搜索引擎蜘蛛下指令的文本文件,用于SEO优化。如果用对了,可以确保搜索引擎蜘蜘蛛正确抓取和索引你的网站页面。如果用错了,可能会对SEO排名和网站流量造成负面影响,那怎么设置robots.txt ,究竟有着怎样的重要性,又该如何书写呢?下面让我们一起来了解一下。
Robots.txt文件的重要性
robots.txt是搜索引擎蜘蛛访问网站时要查看的第一个文件,并且会根据robots.txt文件的内容来爬行网站。在某种意义上说,它的一个任务就是指导蜘蛛爬行,减少搜索引擎蜘蛛的工作量。
当搜索引擎蜘蛛访问网站时,它会首先检查该站点根目录下是否存在robots.txt文件,如果该文件存在,搜索引擎蜘蛛就会按照该文件中的内容来确定爬行的范围;如果该文件不存在,则所有的搜索引擎蜘蛛将能够访问网站上所有没有被口令保护的页面。
搜索引擎对网站派出的蜘蛛是有配额的,多大规模的网站放出多少蜘蛛。如果我们不配置robots文件,那么蜘蛛来到网站以后会无目的的爬行,造成的一个结果就是,需要它爬行的目录,没有爬行到,不需要爬行的,也就是我们不想被收录的内容却被爬行并放出快照。所以robots文件对于我们做网站优化来说具有很重要的影响。
网站没有Robots.txt文件的弊端
如果网站中没有robots.txt文件,则网站中的程序脚本、样式表等一些和网站内容无关的文件或目录即使被搜索引擎蜘蛛爬行,也不会增加网站的收录率和权重,只会浪费服务器资源;搜索引擎派出的蜘蛛资源也是有限的,我们要做的应该是尽量让蜘蛛爬行网站重点文件、目录,******限度的节约蜘蛛资源。
a.User-agent: 应用下文规则的漫游器,比如Googlebot,Baiduspider等。
b.Disallow: 要拦截的网址,不允许机器人访问。
c.Allow: 允许访问的网址
d.“*” : 通配符—匹配0或多个任意字符。
e.“$” : 匹配行结束符。
f.“#” : 注释—说明性的文字,不写也可。
g.Googlebot: 谷歌搜索机器人(也叫搜索蜘蛛)。
h.Baiduspider: 百度搜索机器人(也叫搜索蜘蛛)。
i.目录、网址的写法:都以以正斜线 (/) 开头。
如:Disallow:/
Disallow:/images/
Disallow:/admin/
Disallow:/css/