首页 > SEO建站 > SEO百科什么是robots文件?robots的作用、存放位置、格式及用法详解

什么是robots文件?robots的作用、存放位置、格式及用法详解

2022-01-07 17:22:23

什么是robots文件

一、什么是robots文件

Robots是网站跟爬虫间的协议,是站点与spider沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。可以在网站中创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

二、为什么要写robots.txt

1、保护网站安全

2、节省流量

3、禁止搜索引擎收录部分页面

4、引导蜘蛛爬网站地图

三、robot.txt在SEO中的作用

1、Robots协议是网站国际互联网界通行的道德规范,其 目的是保护网站数据和敏感信息、确保用户个人信息和 隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。

2、每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。

3、网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在"cgi-bin"目录下,因此在robots.txt文件中加入"Disallow: /cgi-bin"是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。

4、robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:Sitemap: https://www.***.com/sitemap.xml

5、合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。

四、robots.txt文件放在哪里?

robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如 http://www.***.com)时,首先会检查该网站中是否存在http://www.***.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。如果没有发现robots.txt文件,蜘蛛就会爬行所有的文件,增加了很多没有意义的操作,增加了蜘蛛的工作量。

网站 URL 相应的 robots.txt的 URL
http://www.***.org/ http://www.***.org/robots.txt
http://www.***.org:80/ http://www.***.org:80/robots.txt
http://www.***.org:1234/ http://www.***.org:1234/robots.txt
http://***.org/ http://***.org/robots.txt

robots.txt文件存放实例

youhuaxing-robots.jpg

五、robots.txt文件的格式

robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:

"<field>:<optional space><value><optionalspace>"

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:

User-agent:该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

使用"*"and"$":Baiduspider支持使用通配符"*"和"$"来模糊匹配url。

"*" 匹配0或多个任意字符

"$" 匹配行结束符。

最后需要说明的是:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

六、robots.txt文件用法举例

例1、禁止所有所示引擎访问网站任何内容 User-agent: *
Disallow:/
例2、允许所有的robot访问(或者也可以建一个空文件&ldquo;/robots.txt&rdquo;) User-agent: *
 Allow:/
例3、仅禁止Baiduspider访问您的网站 User-agent:Baiduspider
 Disallow:/
例4、仅允许Baiduspider访问您的网站 User-agent:Baiduspider
 Allow:/
 User-agent: *
 Disallow:/
例5、仅允许Baiduspider以及Googlebot访问您的网站 User-agent:Baiduspider
 Allow:/
 User-agent:Googlebot
 Allow:/
 User-agent: *
 Disallow:/
例6、禁止spider访问特定目录 在这个例子中,改网站有三个目录对所搜索引擎的访问做了限制,即spider不会访问这3个目录,需要注意的是对每一个目录必须分开声明,而不能写成&ldquo;Disallow:/cgi-bin/ /temp/&rdquo;。 User-agent: *
 Disallow:/cgi-bin/
 Disallow:/temp/
例7、允许访问特定目录中的部分url Allow:/temp/hi  User-agent: *
 Allow:/~joe/look  Allow:cig-bin/see
 Disallow:/cgi-bin/
 Disallow:/temp/
 Disallow:/~joe/
例8、使用&ldquo;*&rdquo;限制访问url 禁止访问/cgi-bin/目录下的所有以&ldquo;.html&rdquo;为后缀的url(包含子目录) User-agent: *
 Disallow:/cgi-bin/*.html
例9、使用&ldquo;$&rdquo;限制访问url 仅允许访问以&ldquo;.html&rdquo;为后缀的url Allow:/*.html$  User-agent: *
 Disallow:
例10、禁止访问网站中所有的动态页面 User-agent: *
 Disallow:/ *?*
例11、禁止Baiduspider抓取网站上的所有图片 仅允许抓取网页,禁止抓取任何图片。 User-agent:Baiduspider
 Disallow:/*.jpg$
 Disallow:/*.jpeg$
 Disallow:/*.gif$
 Disallow:/*.png$
 Disallow:/*.bmp$
例12、仅允许Baiduspider抓取网页和.gif格式图片 允许抓取网页和gif格式图片,不允许抓取其他格式图片 User-agent:Baiduspider
 Allow:/*.gif$
 Disallow:/*.jpg$
 Disallow:/*.jpeg$
 Disallow:/*.png$
 Disallow:/*.bmp$
例13、禁止Baiduspider抓取.jpg格式图片 User-agent:Baiduspider
 Disallow:/*.jpg$


七、Robots META标签的写法

robots meta标签中没有大小写之分,name="robots"表示所有的搜索引擎,可以针对某个具体搜索引擎写为name="baiduspider"。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以","分隔。

index 指令告诉搜索机器人抓取该页面;

follow 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

robots meta标签的缺省值是index和follow,只有inktomi除外,对于它,缺省值是index,nofollow。

这样,一共有四种组合:

<meta name="robots" content="index,follow">

<meta name="robots" content="noindex,follow">

<meta name="robots" content="index,nofollow">

<meta name="robots" content="noindex,nofollow">

其中

<meta name="robots" content="index,follow">可以写成<meta name="robots" content="all">;

<meta name="robots" content="noindex,nofollow">可以写成<meta name="robots" content="none">

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于robots meta标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎google就完全支持,而且google还增加了一个指令"archive",可以限制google是否保留网页快照。例如:

<meta name="googlebot" content="index,follow,noarchive">

表示抓取该站点中页面并沿着页面中链接抓取,但是不在goolge上保留该页面的网页快照。

八、常见Robots名字

google蜘蛛: googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

altavista蜘蛛:scooter

lycos蜘蛛: lycos_spider_(t-rex)

alltheweb蜘蛛: fast-webcrawler/

inktomi蜘蛛: slurp

一个在线写robots.txt的工具。

最后需要注意,robots.txt文件名必须是小写,而且放在网站根目录

九、网站误封Robots该如何处理

robots文件是搜索生态中很重要的一个环节,同时也是一个很细节的环节。很多站长同学在网站运营过程中,很容易忽视robots文件的存在,进行错误覆盖或者全部封禁robots,造成不必要损失!

那么如果误操作封禁了robots怎么办?百度搜索引擎处理方式

1、修改Robots封禁为允许,然后到百度搜索资源后台检测并更新Robots。

2、在百度搜索资源后台抓取检测,此时显示抓取失败,没关系,多点击抓取几次,触发蜘蛛抓取站点。

3、在百度搜索资源后台抓取频次,申请抓取频次上调。

4、百度反馈中心,反馈是因为误操作导致了这种情况的发生。

5、百度搜索资源后台链接提交处,设置数据API推送(实时)。

6、更新sitemap网站地图,重新提交百度,每天手动提交一次。

以上处理完,接下来就是等待了,一般3天左右基本回升到正常状态!

十、百度搜索robots协议全新升级

2020年9月11日,百度搜索robots全新升级。升级后robots将优化对网站视频URL收录抓取情况。仅当您的网站包含不希望被视频搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

如您的网站未设置robots协议,百度搜索对网站视频URL的收录将包含视频播放页URL,及页面中的视频文件、视频周边文本等信息,搜索对已收录的短视频资源将对用户呈现为视频极速体验页。此外,综艺影视类长视频,搜索引擎仅收录页面URL

想了解更多SEO百科的内容,请访问:SEO百科

本文来源:https://www.youhuaxing.cn/seojianzhan/17264.html

免责声明:部分文章信息来源于网络以及网友投稿,本网站只负责对文章进行整理、排版、编辑,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性,不承担任何法律责任。
用我们的专业,做您满意的互联网运维服务商!