请选择 进入手机版 | 继续访问电脑版

巅峰霸主

 找回密码
 立即注册

QQ登录

只需一步,快速开始

robots.txt允许和禁止收录协议的写法详细说明及举例

  [复制链接] [添加相关主题]
烈火大地 发表于 2018-9-30 18:05:34 | 显示全部楼层 |阅读模式
阿里云服务器2折起!

游客只能显示部分内容,请登录后查看帖子完整内容!!!注册完全免费。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
搜索引擎和任何网站建立关系的纽带是robots.txt文件,所有搜索引擎允许收录与禁止收录遵循的协议是一致的,关于robots.txt文件的写法和规范还是有必要普及一下。

1. 什么是robots.txt?
robots.txt 是网站和搜索引擎的协议的纯文本文件。当一个搜索引擎蜘蛛来访问站点时,它首先爬行来检查该站点根目录下是否存在robots.txt,
如果存在,根据文件内容来确定访问范围,如果没有,蜘蛛就沿着链接抓取。robots.txt 放在项目的根目录下。默认如果没有robots.txt文件的情况下,搜索引擎会以您的网站的任何页面均是允许抓取和爬行的。

2. robots.txt语法

1) 允许所有搜索引擎访问网站的所有部分
      robots.txt写法如下:
         
  1. User-agent:  * ##User-agent代表的是搜索引擎,本行表示 所有的搜索引擎
  2. Disallow: * #disallow是不允许的意思,这一行表示 全部不允许
  3.        或者
  4. User-agent:  *
  5. Allow:  / #这里的allow表示允许的意思,这一行表示 全部允许
复制代码
注释:其中的星号“*”表示“所有的”,井号“#”表示“注释”,斜杠“/”表示目录。
注意: 1.第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。

2) 禁止所有搜索引擎访问网站的所有部分
      robots.txt写法如下:
  1. User-agent:  *
  2. Disallow:  /
复制代码
也可以写作下面这样,和上面的效果是一样的:
  1. User-agent:  *
  2. Disallow: *
复制代码
上面的代码意思是:禁止任何搜索引擎收录任何页面。

3) 只需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引
       robots.txt写法如下:
  1.              User-agent:  * #所有的搜索引擎
  2.              Disallow:  /css/ #禁止收录css目录下的所有文件
  3.              Disallow:  /admin/ #禁止收录admin目录下的任何文件
  4.              Disallow:  /images/ #禁止收录images目录下的任何文件
复制代码

4)屏蔽一个文件夹/templets,但是又能抓取其中一个文件文件夹/templets/main/的写法:
            robots.txt写法如下:
  1.                  User-agent:   *
  2.                  Disallow:  /templets #禁止抓取根目录下的名为template文件(或文件夹)
  3.                  Allow:  /templets/main/ #允许抓取根目录下template文件夹里面的main文件夹里的全部内容
复制代码

5)  禁止访问/html/目录下的所有以”.php”为后缀的URL(包含子目录)
              robots.txt写法如下:
  1.                     User-agent:  *
  2.                     Disallow:  /html/*.php #禁止收录根目录下html文件夹里面的以“.php”结尾的全部文件
复制代码

6) 仅允许访问某目录下某个后缀的文件,则使用“$”,“$”表示具体的文件名(文件格式)。
             robots.txt写法如下:
  1.                    User-agent:  *
  2.                    Allow:  .html$ #仅允许访问和抓取以“.html”结尾的文件
  3.                    Disallow:  / #禁止访问正在全部文件
复制代码
说明:disallow和allow命令是可以同时使用的,搜索引擎先会查找disallow命令,如果纯在disallow命令则按照协议放弃抓取;然后搜索引擎会继续查找是否存在“allow”命令,如果存在就会执行抓取,因此allow命令是对disallow命令的补充,要灵活使用。disallow和allow没有顺序的先后,谁在前面都可以。

7)禁止索引网站中所有的动态页面,比如这里限制的是有“?”的域名,例如index.php?id=1,robots.txt写法如下:
  1.                         User-agent:  * #User-agent代表的是搜索引擎
  2.                         Disallow:  *?* #禁止收录带有问号“?”的网址
复制代码

8) 禁止搜索引擎抓取我们网站上的所有图片(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加),有些时候,我们为了节省服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外,还可以采取直接屏蔽图片格式的方式。robots.txt写法如下:
  1.              User-agent: *
  2.              Disallow:  .jpg$ #禁止抓取jpg格式的文件,下同
  3.              Disallow:  .jpeg$
  4.              Disallow:  .gif$
  5.              Disallow:  .png$
  6.              Disallow:  .bmp$
复制代码
9)指定某个具体的搜索引擎:
  1. User-agent: Baiduspider
  2. Allow: *.html$
  3. Disallow: /
复制代码
上面命令的意思是:针对百度搜索引擎,允许百度的蜘蛛索引并抓取以“.html”结尾所有文件夹。其他的搜索引擎不限制,没写出来就表示不限制。


user-agent是搜索引擎的名称,通常以星号“*”来表示所有的,指定某个搜索引擎就需要知道该搜索引擎的蜘蛛名称,可自行百度或查看该搜索引擎的说明,百度的蜘蛛名称是“Baiduspider”,谷歌的蜘蛛名称是“googlebot”。
百度各个产品使用不同的user-agent:
产品名称 对应user-agent
无线搜索 Baiduspider
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟 Baiduspider-cpro
商务搜索 Baiduspider-ads
网页以及其他搜索 Baiduspider




                               
登录/注册后可看大图



网页代码方法

在网页代码<head>与</head>之间,加入<meta name="robots" content="noarchive">代码,此标记禁止搜索引擎抓取网站并显示网页快照。
在网页代码<head>与</head>之间,加入<meta name="Baiduspider" content="noarchive"> //表示禁止百度搜索引擎抓取网站并显示网页快照。
在网页代码<head>与</head>之间,加入<meta name="googlebot" content="noarchive">表示禁止谷歌搜索引擎抓取网站并显示网页快照。

另外当我们的需求很怪异的时候,比如下面这几种情况:

1. 网站已经加了robots.txt,还能在百度搜索出来?
因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。另外也请检查您的robots配置是否正确。如果您的拒绝被收录需求非常急迫,也可以通过投诉平台反馈请求处理。

2. 希望网站内容被百度索引但不被保存快照,我该怎么做?
Baiduspider遵守互联网meta robots协议。您可以利用网页meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。

希望被百度索引,但是不保存网站快照,如下代码解决:
<meta name="Baiduspider" content="noarchive">
将上面的代码放在您的网页<head>与</head>之间任何位置都可以。

如果要禁止所有的搜索引擎保存你网页的快照,那么代码就是下面的:
<meta name="robots" content="noarchive">

常用的一些代码组合:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:可以抓取本页,而且可以顺着本页继续索引别的链接
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不许抓取本页,但是可以顺着本页抓取索引别的链接
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:可以抓取本页,但是不许顺着本页抓取索引别的链接
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不许抓取本页,也不许顺着本页抓取索引别的链接



上一篇:您的robots文件设置了重定向跳转,暂时无法查看怎么解决
下一篇:搜狗提交网站“网站已经添加过,请勿重复添加”解决方法
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|巅峰霸主 ( 京ICP备12023415号-2 )

声明:本站的任何信息和内容仅代表作者的立场和观点,与巅峰霸主网无关。

禁止在巅峰霸主网发布任何与《中华人民共和国法律》相抵触的言论!

GMT+8, 2019-12-9 17:40 , Processed in 0.076830 second(s), 25 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表