资讯动态真实、正向、传递价值

当前位置:主页 > 专业攻略 >

如何禁止搜索引擎蜘蛛爬行?

日期:2021-06-05 / 人气:

  有的时候,站长并不希望某些页面被抓取、收录(或者说被索引),而抓取和收录是不同的两个过程。要确保页面不被抓取,需要使用robots文件。要确保页面不被收录,要使用meta robots标签。
 
  一、meta robots标签
  robots.txt是放在网站中,文件级的网络蜘蛛授权;而meta robots标签是放在网页中,一般用于部分网页需要单独设置的情况下。两者的功能是一样的。
  meta robots标签必须放在<head>和</head>之间,格式:
  <meta name=”robots” content=”noindex,nofollow” />
  content中的值决定允许抓取的类型,必须同时包含两个值:是否允许索引(index)和是否跟踪链接(follow,也可以理解为是否允许沿着网页中的超级链接继续抓取)。共有4个参数可选,组成4个组合:
  index,follow:允许抓取本页,允许跟踪链接。
  index,nofollow:允许抓取本页,但禁止跟踪链接。
  noindex,follow:禁止抓取本页,但允许跟踪链接。
  noindex,nofllow:禁止抓取本页,同时禁止跟踪本页中的链接。
  以上1和4还有另一种写法:
  index,follow可以写成all,如:
  <meta name=”robots” content=”all” />
  noindex,nofollow可以写成none,如:
  <meta name=”robots” content=”none” />
 
  二、创建robots.txt文本
  robots.txt用于指令搜索引擎禁止抓取网站某些内容或之灵允许抓取某些内容。
    如百度的robots文件位于:http://www.baidu.com/robots.txt
  记录格式:文件应该同时包含2个域,“User-agent:”和“Disallow:”,每条指令独立一行。
  (1)User-agent:
  指定允许哪些蜘蛛抓取,如果给出参数,则只有指定的蜘蛛能够抓取;如值为通配符“*”号,代表允许所有蜘蛛抓取。如:
  User-agent: Googlebot
  只允许Google的蜘蛛抓取;
  User-agent: *
  允许所有蜘蛛抓取。
  注意:User-agent必须出现在第一行(有意义的行,注释除外),首先声明用户代理。
 
  (2)Disallow:
    指定禁止蜘蛛抓取的目录或文件,如:
  Disallow: /help.php
  禁止抓取根目录下help.php文件;
  Disallow: /admin/
  禁止抓取根目录下的admin子目录中任何内容;
       Disallow:值为空时,表示不限制,蜘蛛可以抓取站内任何内容。
  Disallow: /
  禁止了蜘蛛抓取根目录下的所有内容。
  如果需要指定多个目录或文件,可以用多个“Disallow: 文件或目录名”来指定,但必须每一项单独一行。
  示例:
  禁止百度蜘蛛:
  User-agent: baiduspider
  Disallow: /
 
  禁止谷歌蜘蛛:
  User-agent: Googlebot
  Disallow: /
 
  禁止所有蜘蛛:
  User-agent: *
  Disallow: /
 
  另外,robots文件还有一些写法:
    例:
      1、阻止所有蜘蛛抓取/ab/和/tmp/两个目录下的内容以及/aa/index.html
            User-agent:*
            Disallow:/ab/
            Disallow:/tmp/
            Disallow:/aa/index.html
 
        2、允许蜘蛛不能抓取/ab/目录下其他目录和文件,但允许抓取其中/cd/目录下的内容
             User-agent:*
             Disallow:/ab/
             Allow:/ab/cd/
 
        3、允许蜘蛛抓取以.html为后缀的URL
             User-agent:*
             Allow: .html$
 
        4、禁止蜘蛛抓取所有htm文件
             User-agent:*
             Disallow: /*.Htm
 
 
如何禁止蜘蛛爬行
 

编辑:admin