Robots文件内容正确编写教程-推荐收藏

我们在百度站长后,查看百度抓取结果的时候,自己抓取诊断显示正常,但是查看百度自动抓取确会,提示异常或者错误,明明服务器DNS和设置都正常为什么会提示“百度暂时无法连接您的服务器,请检查服务器的设置,确保您网站的服务器能被正常访问。错误码:404或者错误码301或者300等情况”,这就要讲到Robots.txt了,其实是网站上最简单的文件之一,但也是最容易搞乱的文件之一。只要一个字符不合适,就会对您的 SEO 造成严重破坏,并阻止搜索引擎访问您网站上的重要内容。

Robots文件检测异常

请跟着我的步骤进行一步一步了解,帮你解决这个问题:

 

一、什么是TXT?

 

Robots.txt是一个由网站管理者创建并放置于网站根目录下的ASCII编码文本文件。它的主要功能是指导网络搜索引擎的爬虫(也被称为网络蜘蛛)在抓取网站内容时的行为。

 

二、TXT文件有什么作用?

 

通过robots.txt文件,网站可以和各大搜索引擎很友好的对话,引导搜索引擎机器人抓取你推荐的网页,避免一些意义不大或无用网页,例如网站后台、会员交互功能等,这在一定程度上也节省服务器网络资源。

 

三、TXT是什么样的?

Robots.TXT文件的基本格式:

Sitemap: [URL location of sitemap]

User-agent: [bot identifier]
[directive 1]
[directive 2]
[directive ...]

User-agent: [another bot identifier]
[directive 1]
[directive 2]
[directive ...]

如果你以前从未看过这些内容,你可能会觉得很难。但实际上,它的语法非常简单。简而言之,你可以通过在文件中指定user-agents(用户代理)和directives(指令)来为搜索引擎蜘蛛分配抓取规则。

让我们详细的讨论则两个组件。

User-agents(用户代理)

每个搜索引擎都有一个特定的用户代理。你可以在robots.txt文件中针对不同的用户代理分配抓取规则。以下是一些对常见的SEO有用的用户代理:

  • 谷歌: Googlebot
  • Google Images: Googlebot-Image
  • Bing: Bingbot
  • 雅虎: Slurp
  • 百度: Baiduspider
  • DuckDuckGo: DuckDuckBot

小提示. robots.txt中的所有用户代理均严格区分大小写。

你也可以使用通配符(*)来一次性为所有的用户代理制定规则。

举个例子,假设你想屏蔽除了谷歌以外的搜索引擎蜘蛛,下面就是做法:

#拦截全部蜘蛛
User-agent: *
Disallow: /

#拦截百度蜘蛛
User-agent: Baiduspider
Allow: /

四、Robots.TxT文件里面应该怎么写?

“/robots.txt”文件是一个文本文件,包含一条或多条记录。通常包含一条如下所示的记录:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

在此示例中,排除了三个目录。

请注意,对于要排除的每个 URL 前缀,您需要单独的“Disallow”行 - 您不能在一行上说“Disallow: /cgi-bin/ /tmp/”。此外,记录中不能有空行,因为它们用于分隔多个记录。

另请注意, User-agent 或 Disallow 行中不支持通配符和正则表达式。用户代理字段中的“*”是一个特殊值,表示“任何搜索引擎”。具体来说,您不能使用“User-agent: *bot*”、“Disallow: /tmp/*”或“Disallow: *.gif”等行。

您要排除的内容取决于您的服务器。任何未明确禁止的内容都被视为公平的检索游戏。下面是一些例子:

1、屏蔽所有的搜索引擎收录任何页面
User-agent: *
Disallow: /
2、允许所有搜索引擎完全访问收录
User-agent: * 
Disallow: 

 

或者

User-agent: *
Allow: /

(允许所有搜索引擎的方法还有:1、或者只创建一个空的“/robots.txt”文件,2、或者什么都不用创建)

 

3、从禁止指定的搜索引擎收录

如果只是想有针对性的屏蔽某个或多个搜索引擎,比如禁止百度和谷歌蜘蛛,写法如下。

User-agent: baiduspider
Disallow: /
User-agent: googelebot
Disallow: /
User-agent: *
Allow: /
4、仅允许指定的搜索引擎收录

需要把搜索引擎蜘蛛的名称写在前面,最后使用*来匹配全部,代码如下。仅允许百度和谷歌收录,其他搜索引擎全部禁止。

User-agent: baiduspider
Allow: /
User-agent: googelebot
Allow: /
User-agent: *
Disallow: /

第5、6两句是禁止所有的,前面允许了指定的蜘蛛名称,所以除了被允许的百度和谷歌蜘蛛,其他的搜索引擎都不能收录的网站页面了。

 

5、排除单个搜索引擎

仅禁止Bing收录

User-agent: BadBot
Disallow: /
6、允许单个搜索引擎爬取

仅允许谷歌收录

User-agent: Google
Disallow:

User-agent: *
Disallow: /
7、排除除一个文件之外的所有文件

我们看到,因为没有"Allow"(允许)字段。所以,最简单的方法是将所有不允许的文件放入一个单独的目录中,例如“stuff”,并将一个文件保留在该目录的上一级:

User-agent: *
Disallow: /~joe/stuff/

或者,您可以明确禁止所有不允许的页面:

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

需要注意的是,在输入的时候一定要严格注意大小写,搜索引擎对这些特别敏感!

五、Robots.TxT文件写好了放置在哪里?

建立Robots.TxT文件夹,输入对应的指令即可,

Robots.TxT文件内容写好后,点击保存,直接放置在根目录即可

Robots文件检测更新成功

我们再次回到百度Robots检测以下,显示“检测到您更新了Robots文件”

THE END