玩转robots协议

| 阅读量 | 分类: 经验心得 | 作者: 读者投稿 | 时间：2013年07月13日 10:09

2013年2月8日北京市第一中级人民法院正式受理了百度诉奇虎360违反“Robots协议”抓取、复制其网站内容的不正当竞争行为一案，索赔金额高达一亿元，这可以看做2012年下半年“3B大战”的继续。在此次索赔案件中，百度称自己的Robots文本中已设定不允许360爬虫进入，而360的爬虫依然对“百度知道”、“百度百科”等百度网站内容进行抓取。

其实早在2012年11月初，针对双方摩擦加剧的情况，在中国互联网协会的牵头下，包括百度、新浪、奇虎360在内的12家互联网公司已共同签署了《互联网搜索引擎服务自律公约》，在公约第七条承诺“遵循国际通行的行业惯例与商业规则，遵守机器人协议(robots协议)。

玩转robots协议网站优化搜索引擎经验心得第1张

今天就找个机会聊聊一夜成名的robots协议。

初识robots协议

什么是robots

要了解robots协议首先要了解robots，本文说的robots不是《I，robot》里的威尔·史密斯，不是《机器人总动员》里的瓦力和伊娃，不是《终结者》系列中的施瓦辛格。什么?这些经典电影你都不知道?好吧，算我想多了。本文的robots特指搜索引擎领域的web robots，这个名字可能很多人不熟悉，但是提到Web Wanderers，Crawlers和Spiders很多人可能就恍然大悟了，在中文里我们统称为爬虫或者网络爬虫，也就是搜索引擎抓取互联网网页的程序。

同学们都知道网页是通过超级链接互相关联起来的，从而形成了网页的网状结构。爬虫的工作方式就像蜘蛛在网上沿着链接爬来爬去，最基本的流程可以简化如下：

1.喂给爬虫一堆url，我们称之为种子(seeds)

2.爬虫抓取seeds，解析html网页，抽取其中的超级链接

3.爬虫接着抓取这些新发现的链接指向的网页

2，3循环往复

什么是robots协议

了解了上面的流程就能看到对爬虫来说网站非常被动，只有老老实实被抓取的份。存在这样的需求：

1.某些路径下是个人隐私或者网站管理使用，不想被搜索引擎抓取，比如说日本爱情动作片

2.不喜欢某个搜索引擎，不愿意被他抓取，最有名的就是之前淘宝不希望被百度抓取

3.小网站使用的是公用的虚拟主机，流量有限或者需要付费，希望搜索引擎抓的温柔点

4.某些网页是动态生成的，没有直接的链接指向，但是希望内容被搜索引擎抓取和索引

网站内容的所有者是网站管理员，搜索引擎应该尊重所有者的意愿，为了满足以上等等，就需要提供一种网站和爬虫进行沟通的途径，给网站管理员表达自己意愿的机会。有需求就有供应，robots协议就此诞生。Robots协议，学名叫：The Robots Exclusion Protocol，就搜索引擎抓取网站内容的范围作了约定，包括网站是否希望被搜索引擎抓取，哪些内容不允许被抓取，把这些内容放到一个纯文本文件robots.txt里，然后放到站点的根目录下。爬虫抓取网站内容前会先抓取robots.txt，据此“自觉地”抓取或者不抓取该网页内容，其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。

需要注意的是robots协议并非是规范，只是行业内一个约定俗成的协议。什么意思呢?Robots协议不是什么技术壁垒，而只是一种互相尊重的协议，好比私家花园的门口挂着“闲人免进”，尊重者绕道而行，不尊重者依然可以推门而入，比如说360。

说了这么多，看几个有名的例子感觉一下先：

例子1：淘宝
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /

程序猿，你懂的。这不就是淘宝不想让百度抓取嘛

例子2：京东
User-agent: *
Disallow: /?*
Disallow: /pop/*.html
User-agent: EtaoSpider
Disallow: /

这个也不复杂，京东有2个目录不希望所有搜索引擎来抓。同时，对etao完全屏蔽。

基本玩法

robots.txt的位置

说简单也简单，robots.txt放到一个站点的根目录下即可。说复杂也有点小复杂，一个robots.txt只能控制相同协议，相同端口，相同站点的网页抓取策略。什么意思呢?看个例子最清楚：
百度网页搜索
百度知道

这两个robots.txt的内容是不同的，也就是说百度网页搜索和百度知道的抓取策略可以由自己独立的robots.txt来控制，井水不犯河水。

robots.txt的内容

最简单的robots.txt只有两条规则：

1.User-agent：指定对哪些爬虫生效

2.Disallow：指定要屏蔽的网址

整个文件分为x节，一节由y个User-agent行和z个Disallow行组成。一节就表示对User-agent行指定的y个爬虫屏蔽z个网址。这里x>=0，y>0，z>0。x=0时即表示空文件，空文件等同于没有robots.txt。

下面详细介绍这两条规则：

User-agent

爬虫抓取时会声明自己的身份，这就是User-agent，没错，就是http协议里的User-agent。robots.txt利用User-agent来区分各个引擎的爬虫。

举例说明：Google网页搜索爬虫的User-agent为Googlebot，下面这行就指定google的爬虫。

User-agent：Googlebot

如果想指定所有的爬虫怎么办?不可能穷举啊，可以用下面这一行：

User-agent: *

可能有的同学要问了，我怎么知道爬虫的User-agent是什么?这里提供了一个简单的列表：爬虫列表

当然，你还可以查相关搜索引擎的资料得到官方的数据，比如说google爬虫列表，百度爬虫列表

Disallow

Disallow 行列出的是要拦截的网页，以正斜线 (/) 开头，可以列出特定的网址或模式。

要屏蔽整个网站，使用正斜线即可：

Disallow: /

要屏蔽某一目录以及其中的所有内容，在目录名后添加正斜线：

Disallow: /无用目录名/

要屏蔽某个具体的网页，就指出这个网页。

Disallow: /网页.html

Disallow还可以使用前缀和通配符。

要屏蔽目录a1-a100，可以使用上面的方式写100行，或者

Disallow：/a

但是需要注意，这样会把任何以a开头的目录和文件也屏蔽，慎用。如果需要屏蔽a1-a100，但是不屏蔽a50，怎么办?同学们可以思考一下，这个问题我们留到下一节。

要阻止特定类型的文件(如 .gif)，请使用以下内容：

Disallow: /*.gif$
*匹配任意个字符，$匹配url结束，具体就不解释了吧，不了解的同学去自学一下通配符。
提示一下，Disallow的内容区分大小写。例如，Disallow: /junkfile.asp 会屏蔽 junkfile.asp，却会允许Junk_file.asp。

最最后，通配符不是所有搜索引擎都支持，使用要小心。没办法，谁让robots.txt没有一个大家都承认的标准呢。

实例 ###
百度网页搜索
User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
User-agent: MSNBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
...

现在读懂这个应该毫无压力了吧，顺便说一句百度的robots.txt比较啰嗦，有兴趣的同学可以简化一下。

高阶玩法

首先声明：高级玩法不是所有引擎的爬虫都支持，一般来说，作为搜索引擎技术领导者的谷歌支持的最好。

例子：google robots.txt

allow

还记得上面的问题吗?如果需要屏蔽a1-a100，但是不屏蔽a50，怎么办?

方案1：
Disallow：/a1/
Disallow：/a2/
...
Disallow：/a49/
Disallow：/a51/
...
Disallow：/a100/

方案2：
Disallow：/a
Allow:/a50/

ok，allow大家会用了吧。

顺便说一句，如果想屏蔽a50下面的文件private.html，咋整?

Disallow：/a
Allow:/a50/
Disallow：/a50/private.html

聪明的你一定能发现其中的规律，对吧?谁管的越细就听谁的。

sitemap

前面说过爬虫会通过网页内部的链接发现新的网页。但是如果没有连接指向的网页怎么办?或者用户输入条件生成的动态网页怎么办?能否让网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页?这就是sitemap，最简单的 Sitepmap 形式就是 XML 文件，在其中列出网站中的网址以及关于每个网址的其他数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度等等)，利用这些信息搜索引擎可以更加智能地抓取网站内容。

sitemap是另一个话题，足够开一篇新的文章聊的，这里就不展开了，有兴趣的同学可以参考sitemap

新的问题来了，爬虫怎么知道这个网站有没有提供sitemap文件，或者说网站管理员生成了sitemap，(可能是多个文件)，爬虫怎么知道放在哪里呢?

由于robots.txt的位置是固定的，于是大家就想到了把sitemap的位置信息放在robots.txt里。这就成为robots.txt里的新成员了。

节选一段google robots.txt：

Sitemap: http://www.gstatic.com/culturalinstitute/sitemaps/www_google_com_culturalinstitute/sitemap-index.xml
Sitemap: http://www.google.com/hostednews/sitemap_index.xml

插一句，考虑到一个网站的网页众多，sitemap人工维护不太靠谱，google提供了工具可以自动生成sitemap。

meta tag

其实严格来说这部分内容不属于robots.txt，不过也算非常相关，我也不知道放哪里合适，暂且放到这里吧。

robots.txt的初衷是为了让网站管理员管理可以出现在搜索引擎里的网站内容。但是，即使使用 robots.txt 文件让爬虫无法抓取这些内容，搜索引擎也可以通过其他方式找到这些网页并将它添加到索引中。例如，其他网站仍可能链接到该网站。因此，网页网址及其他公开的信息(如指向相关网站的链接中的定位文字或开放式目录管理系统中的标题)有可能会出现在引擎的搜索结果中。如果想彻底对搜索引擎隐身那咋整呢?答案是：元标记，即meta tag。

比如要完全阻止一个网页的内容列在搜索引擎索引中(即使有其他网站链接到此网页)，可使用 noindex 元标记。只要搜索引擎查看该网页，便会看到 noindex 元标记并阻止该网页显示在索引中，这里注意noindex元标记提供的是一种逐页控制对网站的访问的方式。

举例：

要防止所有搜索引擎将网站中的网页编入索引，在网页的

部分添加：

<meta name="robots" content="noindex">

这里的name取值可以设置为某个搜索引擎的User-agent从而指定屏蔽某一个搜索引擎。

除了noindex外，还有其他元标记，比如说nofollow，禁止爬虫从此页面中跟踪链接。详细信息可以参考Google支持的元标记，这里提一句：noindex和nofollow在HTML 4.01规范里有描述，但是其他tag的在不同引擎支持到什么程度各不相同，还请读者自行查阅各个引擎的说明文档。

Crawl-delay

除了控制哪些可以抓哪些不能抓之外，robots.txt还可以用来控制爬虫抓取的速率。如何做到的呢?通过设置爬虫在两次抓取之间等待的秒数。

Crawl-delay:5

表示本次抓取后下一次抓取前需要等待5秒。

注意：google已经不支持这种方式了，在webmaster tools里提供了一个功能可以更直观的控制抓取速率。

这里插一句题外话，几年前我记得曾经有一段时间robots.txt还支持复杂的参数:Visit-time，只有在visit-time指定的时间段里，爬虫才可以访问;Request-rate: 用来限制URL的读取频率，用于控制不同的时间段采用不同的抓取速率。后来估计支持的人太少，就渐渐的废掉了，有兴趣的同学可以自行google。我了解到的是目前google和baidu都已经不支持这个规则了，其他小的引擎公司貌似从来都没有支持过。如果确有支持那是我孤陋寡闻了，欢迎留言告知。

真的有用?

好吧，到此为止robots.txt相关的东东介绍的也七七八八了，能坚持看到这里的同学估计都跃跃欲试了，可惜，我要泼盆冷水，能完全指望robots.txt保护我们网站的内容吗?不一定。否则百度和360就不用打官司了。

协议一致性

第一个问题是robots.txt没有一个正式的标准，各个搜索引擎都在不断的扩充robots.txt功能，这就导致每个引擎对robots.txt的支持程度各有不同，更不用说在某个功能上的具体实现的不同了。

缓存

第二个问题是robots.txt本身也是需要抓取的，出于效率考虑，一般爬虫不会每次抓取网站网页前都抓一下robots.txt，加上robots.txt更新不频繁，内容需要解析。通常爬虫的做法是先抓取一次，解析后缓存下来，而且是相当长的时间。假设网站管理员更新了robots.txt，修改了某些规则，但是对爬虫来说并不会立刻生效，只有当爬虫下次抓取robots.txt之后才能看到最新的内容。尴尬的是，爬虫下次抓取robots.txt的时间并不是由网站管理员控制的。当然，有些搜索引擎提供了web 工具可以让网站管理员通知搜索引擎那个url发生了变化，建议重新抓取。注意，此处是建议，即使你通知了搜索引擎，搜索引擎何时抓取仍然是不确定的，只是比完全不通知要好点。至于好多少，那就看搜索引擎的良心和技术能力了。

ignore

第三个问题，不知是无意还是有意，反正有些爬虫不太遵守或者完全忽略robots.txt，不排除开发人员能力的问题，比如说根本不知道robots.txt。另外，本身robots.txt不是一种强制措施，如果网站有数据需要保密，必需采取技术措施，比如说：用户验证，加密，ip拦截，访问频率控制等。

偷偷的抓

第四个问题，即使采用了种种限制，仍然存在某些恶意的抓取行为能突破这些限制，比如一些利用肉鸡进行的抓取。悲观的说，只要普通用户可以访问，就不能完全杜绝这种恶意抓取的行为。但是，可以通过种种手段使抓取的代价增大到让对方无法接受。比如说：Captcha， Ajax用户行为驱动的异步加载等等。这个就不属于本文讨论的范畴了。

泄密

最后，robots.txt本身还存在泄密的风险。举例，如果某一个网站的robots.txt里突然新增了一条：Disallow /map/，你想到了什么?是不是要推出地图服务了?于是有好奇心的同学就会开始尝试各种文件名去访问该路径下的文件，希望能看到惊喜。貌似当初google的地图就是这么被提前爆出来的，关于这点我不太确定，大家就当八卦听听好了。

工具

google webmaster tools
robots.txt生成工具
Perl robots.txt解析器
Python robots.txt解析器

参考资料

robotstxt.org
google robots.txt规范
robots.txt wikipedia
Internet robot wikipedia
Web Crawler wikipedia
sitemap

文章来源：淘宝搜索技术博客作者：桂南

顶: 8 踩: 4

来源：卢松松博客 QQ/微信：13340454 ，转载请注明出处！

本文地址：https://lusongsong.com/reed/732.html

发表感想加入微信群

热门跟帖

云服务目录导航站

熟练掌握robots协议对站长来说还是很有必要的——来自【云服务目录导航站 yun200】

评论来自电脑端 · 中国江苏时间:2023-01-10 15:19:42

顶: 0 踩: 0 回复

2楼

天天特价

一直在纠结应该怎么写robots 终于找到答案了谢谢

评论来自电脑端时间:2017-06-24 14:55:36

顶: 0 踩: 0 回复

3楼

句子吧

真心不错，前来学习，第一次接触robots。我说怎么我的博客，只收录首页，内页都不收录~

评论来自电脑端时间:2017-02-15 18:20:17

顶: 0 踩: 0 回复

4楼

程序猿小黄

真心不错，前来学习，第一次接触robots。我说怎么我的博客，只收录首页，内页都不收录~

评论来自电脑端时间:2016-12-14 11:39:51

顶: 0 踩: 0 回复

5楼

房源采集软件

我的网站很长时间不收录了，我了解了之后，我添加了robots协议，不知道有没有用，所有的搜索引擎可以访问网站上的所有地址

评论来自电脑端时间:2016-06-23 18:18:08

顶: 0 踩: 0 回复

6楼

网站目标关键词优化技巧

robots很重要，目标关键词的优化技巧更重要

评论来自电脑端时间:2016-05-17 19:17:33

顶: 0 踩: 1 回复

7楼

站长网站教程大全

百度果然不遵循robots协议，我的网站Disallow文件夹，昨天我看日志记录，竟然还被抓了，郁闷。

评论来自电脑端时间:2016-04-15 09:14:35

顶: 0 踩: 1 回复

8楼

SEO教程文字版大集合

恩，我想这篇文章对于想要了解robots的人来说帮了大忙了··非常的详细！

评论来自电脑端时间:2016-04-14 23:21:37

顶: 0 踩: 1 回复

9楼

刷贝网

看完了还是很模糊啊，不知道有没有试机的案例

评论来自电脑端时间:2015-09-16 13:35:09

顶: 1 踩: 1 回复

10楼

创业博客

真心不错，虽然我现在才读到。

评论来自电脑端时间:2015-04-12 09:56:56

顶: 0 踩: 0 回复

11楼

祝福语

学习了

评论来自电脑端时间:2015-01-26 20:55:02

顶: 0 踩: 1 回复

12楼

爱车网

对于新站长来说这是必须了解的

评论来自电脑端时间:2014-09-04 12:16:02

顶: 0 踩: 1 回复

13楼

九块九包邮

有很多设置都不好随便设

评论来自电脑端时间:2014-05-20 10:09:54

顶: 0 踩: 1 回复

14楼

宁波自考

写的很好，学习了！受教很喜欢你写的文章。

评论来自电脑端时间:2013-07-31 16:49:26

顶: 0 踩: 1 回复

15楼

王牌论坛

多花点时间了解网站的知识只有好处没坏处

评论来自电脑端时间:2013-07-28 23:46:01

顶: 0 踩: 1 回复

16楼

不干胶标签印刷

评论来自电脑端时间:2013-07-25 09:08:06

顶: 0 踩: 1 回复

17楼

A8电脑技术博客

好多字！一篇博文都够我花些时间去消化了。。

评论来自电脑端时间:2013-07-23 16:41:41

顶: 0 踩: 1 回复

18楼

vfhky

为啥淘宝不屏蔽gg的蜘蛛呢?按理说gg收录的页面比百度的肯定要多得多的。

评论来自电脑端时间:2013-07-22 23:29:59

顶: 0 踩: 0 回复

19楼

seo博客

百度本身就让人匪夷所思！

评论来自电脑端时间:2013-07-21 18:50:16

顶: 0 踩: 1 回复

20楼

seo博客

不知道实施的情况如何

评论来自电脑端时间:2013-07-21 18:49:45

顶: 0 踩: 1 回复

21楼

seo博客

你说的这是什么呀，没明白，也不懂

评论来自电脑端时间:2013-07-21 15:13:25

顶: 0 踩: 1 回复

22楼

987网赚论坛

robots协议还是值得学习的

评论来自电脑端时间:2013-07-21 09:52:46

顶: 0 踩: 1 回复

23楼

压片机

小网站根本用不到，只有大网站才用的到。

评论来自电脑端时间:2013-07-20 08:42:13

顶: 0 踩: 1 回复

24楼

压片机

看来还是要学习啊。

评论来自电脑端时间:2013-07-19 08:38:22

顶: 0 踩: 1 回复

25楼

godlu1

我也感觉到了，我就觉得奇怪，360里面好多内容和百度是一模一样的，比如360百科什么的。不过我现在是希望我的网站都被抓取，什么搜索引擎都来，哈哈

评论来自电脑端时间:2013-07-18 16:28:04

顶: 0 踩: 1 回复

26楼

苹果手机套

这是一篇介绍robots的好文章，就是太长了。对我个人而言，作者能考虑下用户就好了。

评论来自电脑端时间:2013-07-18 08:17:05

顶: 0 踩: 1 回复

27楼

快活林活性炭

说的非常好，非常的详细。

评论来自电脑端时间:2013-07-17 22:10:08

顶: 0 踩: 1 回复

28楼

自由飞翔的翅膀

一口气看完了，这是我见过的好的分享资源。写的很好，我觉得文章有感染力。嘿嘿。

评论来自电脑端时间:2013-07-17 18:10:42

顶: 0 踩: 1 回复

29楼

追梦无痕

之前对于Robots文本不了解

评论来自电脑端时间:2013-07-17 12:06:24

顶: 0 踩: 0 回复

30楼

电脑中国

有很多设置都不好随便设

评论来自电脑端时间:2013-07-16 21:46:33

顶: 0 踩: 0 回复

31楼

寇铈鑫

代码太多看不懂

评论来自电脑端时间:2013-07-16 20:46:56

顶: 0 踩: 0 回复

32楼

广场舞

这个不错，拿我的站试试去

评论来自电脑端时间:2013-07-15 17:43:08

顶: 0 踩: 0 回复

33楼

点餐机代理

还有好多地方需要学习的啊

评论来自电脑端时间:2013-07-15 15:03:13

顶: 0 踩: 0 回复

34楼

声卡驱动器官方下载

我擦，内容挺多啊。

评论来自电脑端时间:2013-07-15 14:24:35

顶: 0 踩: 0 回复

35楼

小本创业

对robots协议了解的不是很多

评论来自电脑端时间:2013-07-15 13:34:09

顶: 0 踩: 0 回复

36楼

站长百科

个人觉得，robots协议大多数小网站都用不上，只有大企业门户，或者电商才有用的

评论来自电脑端时间:2013-07-15 10:25:05

顶: 0 踩: 0 回复

37楼

陈念博客

恩，我想这篇文章对于想要了解robots的人来说帮了大忙了··非常的详细！

评论来自电脑端时间:2013-07-15 10:09:40

顶: 0 踩: 0 回复

38楼

浮生未满

robots有这么多写法规则啊，要定义那些页面不允许抓取就不好弄了。

评论来自电脑端时间:2013-07-15 09:28:50

顶: 0 踩: 0 回复

39楼

刘兆华

这个还真幽默！

评论来自电脑端时间:2013-07-15 09:23:45

顶: 0 踩: 0 回复

40楼

粉肚兜

我也是运营现在这个站才使用ROBOTS协议，之前都没有用过。不过个人感觉ROBOTS不错。

评论来自电脑端时间:2013-07-15 08:51:51

顶: 0 踩: 0 回复

41楼

Ahui

分析非常细致！
关于使用“通配符”时，能写点具体例子更好

评论来自电脑端时间:2013-07-14 23:52:08

顶: 0 踩: 0 回复

42楼

玉皇报

以前就大概了解了，看了之后会更深入的了解并理解

评论来自电脑端时间:2013-07-14 22:13:12

顶: 0 踩: 0 回复

43楼

上海德威健康

没注意协议~~~~

评论来自电脑端时间:2013-07-14 21:20:31

顶: 0 踩: 0 回复

44楼

365导航

这篇文章很及时，谢谢了。

评论来自电脑端时间:2013-07-14 20:41:31

顶: 0 踩: 0 回复

45楼

emehost

来了解一下具体情况

评论来自电脑端时间:2013-07-14 20:37:16

顶: 0 踩: 0 回复

46楼

阿兴博客

基本没怎么注意这个协议

评论来自电脑端时间:2013-07-14 18:11:07

顶: 0 踩: 0 回复

48楼

杭州seo

看完了，查不到懂了，其实之前会写robotstxt的，卢松松说的比较详细，学习了，一会试试能不能屏蔽掉动态小尾巴！

评论来自电脑端时间:2013-07-14 17:02:01

顶: 0 踩: 0 回复

49楼

吴贤祖博客

学习了，松松老师！

评论来自电脑端时间:2013-07-14 16:25:51

顶: 0 踩: 0 回复

50楼

圆点网络传媒

我的robots都是网上直接copy一段，不知道不想要蜘蛛抓取的链接是不是DISFOLLOW：后面加一个域名就不会被抓取

评论来自电脑端时间:2013-07-14 16:00:02

顶: 0 踩: 0 回复

51楼

艾默生变频器

robots，多网站SEO基本上没用。
最多只是禁止爬行，保护一些用户数据而已！

评论来自电脑端时间:2013-07-14 15:31:35

顶: 0 踩: 0 回复

52楼

印度易瑞沙

学习了，他们是久不久的要干一仗

评论来自电脑端时间:2013-07-14 14:36:48

顶: 0 踩: 0 回复

53楼

手写体网

这个我可以学会。。。

评论来自电脑端时间:2013-07-14 13:30:04

顶: 0 踩: 0 回复

54楼

惠尚佳品商城

还是不能完全理解，

评论来自电脑端时间:2013-07-14 13:19:14

顶: 0 踩: 0 回复

55楼

坐月子注意事项

抓去不一定收录

评论来自电脑端时间:2013-07-14 12:52:26

顶: 0 踩: 0 回复

56楼

一刀博客

360连robots都不遵守，还谈什么安全

评论来自电脑端时间:2013-07-14 11:09:32

顶: 0 踩: 0 回复

57楼

大发

我感觉就算屏蔽了，百度照样能抓取~~

评论来自电脑端时间:2013-07-14 10:30:38

顶: 0 踩: 0 回复

58楼

大主宰5200

松哥的博客人气还是那么高，来支持下
有换链接的可以联系我

评论来自电脑端时间:2013-07-14 10:07:46

顶: 0 踩: 0 回复

59楼

婴儿理发器

不错的博文，弄明白原理，站长自己就可以写robots了。

评论来自电脑端时间:2013-07-14 09:21:03

顶: 0 踩: 0 回复

60楼

石家庄分类信息

关于robots介绍的很详细，学习了。

评论来自电脑端时间:2013-07-14 09:19:15

顶: 0 踩: 0 回复

61楼

海盐博客

好文章

评论来自电脑端时间:2013-07-14 08:35:00

顶: 0 踩: 0 回复

62楼

虚拟主机服务商

玩这个都没什么用

评论来自电脑端时间:2013-07-13 23:37:34

顶: 0 踩: 0 回复

63楼

购疯狂

做网站做成大佬了就不用考虑这些吧！

评论来自电脑端时间:2013-07-13 22:56:44

顶: 0 踩: 0 回复

64楼

肖玉宸

就这个还赔偿1亿元啊，果然值钱

评论来自电脑端时间:2013-07-13 22:38:54

顶: 0 踩: 0 回复

65楼

EinCy

淘宝京东在百度上随便都能搜索到相关商品。

评论来自电脑端时间:2013-07-13 21:49:11

顶: 0 踩: 0 回复

66楼

恩泽微创

来学习啦松松哥

评论来自电脑端时间:2013-07-13 19:17:24

顶: 0 踩: 0 回复

67楼

ledusz

这确实是很不错的东西啊好好学习了

评论来自电脑端时间:2013-07-13 17:21:14

顶: 0 踩: 0 回复

68楼

寇铈鑫

怎么不抓点儿我的需要蜘蛛来抓啊

评论来自电脑端时间:2013-07-13 16:40:33

顶: 0 踩: 0 回复

69楼

一心

我想问一下，一个网站二级域名超多，并且每个二级域名都是不同的服务内容，那么是不是每个二级域名都要单独设置robots，然后将robots放到二级域名的根目录下面去？还有sitemap是不是一样都放二级域名根目录下面呢？

评论来自电脑端时间:2013-07-13 16:25:44

顶: 0 踩: 0 回复

70楼

挖当软件

深入学习一遍。。

评论来自电脑端时间:2013-07-13 16:23:26

顶: 0 踩: 0 回复

71楼

千度博客

root协议说起来简单，坐起来还真的挺难的啊

评论来自电脑端时间:2013-07-13 15:38:03

顶: 0 踩: 0 回复

72楼

小怪兽博客

还不错，收藏了。。

评论来自电脑端时间:2013-07-13 15:26:09

顶: 0 踩: 0 回复

73楼

狼迹天涯

松哥请问下，你那个软件下载站是用的什么模板，在哪里可以搞到，我也想做一个程序员资源下载的站，请不吝赐教，谢谢

评论来自电脑端时间:2013-07-13 15:20:07

顶: 0 踩: 0 回复

74楼

好运鞋

这个知识很有用，只是自己只记住很少的部分。要慢慢来了。

评论来自电脑端时间:2013-07-13 15:19:16

顶: 0 踩: 0 回复

75楼

礼品

专业性很强

评论来自电脑端时间:2013-07-13 15:13:08

顶: 0 踩: 0 回复

76楼

北京毛猴

额。。。。。。需要学习的还很多很多啊。

评论来自电脑端时间:2013-07-13 15:12:25

顶: 0 踩: 0 回复

77楼

宿迁波仔博客

其实一个正规的站，robots协议还有必要写一个的。

评论来自电脑端时间:2013-07-13 15:09:32

顶: 0 踩: 0 回复

78楼

川雅精细

百度果然不遵循robots协议，我的网站Disallow文件夹，昨天我看日志记录，竟然还被抓了，郁闷。

评论来自电脑端时间:2013-07-13 14:35:22

顶: 0 踩: 0 回复

79楼淋巴水肿

赞成你的说法

跟帖来自电脑端时间:2013-07-13 14:29:06

顶: 0 踩: 0 回复

80楼

9元店

淘宝不是也屏蔽百度蜘蛛吧，百度搜索里面也可以找到淘宝的网址，只不过加了个备注！

评论来自电脑端时间:2013-07-13 14:17:00

顶: 0 踩: 0 回复

81楼

周福林

这个不错，写的详细具体，非常实用！

评论来自电脑端时间:2013-07-13 14:14:41

顶: 0 踩: 0 回复

82楼

数据库营销

话说百度最近又抽风了

评论来自电脑端时间:2013-07-13 14:02:47

顶: 0 踩: 0 回复

83楼

wordpress主题教程网

马克一下，这个比较实用~~~

评论来自电脑端时间:2013-07-13 12:50:52

顶: 0 踩: 0 回复

84楼

博客丛

来的人不少啊！我也凑热闹！

评论来自电脑端时间:2013-07-13 12:10:09

顶: 0 踩: 0 回复

85楼

马丁靴

那么多,一个亿呢! My God

评论来自电脑端时间:2013-07-13 11:58:35

顶: 0 踩: 0 回复

86楼

21氪

我博客下的是老卢的程序，默认没有这个。但老卢博客有。没有可有问题啊。谁能解答

评论来自电脑端时间:2013-07-13 11:47:39

顶: 0 踩: 0 回复

87楼

沈梦姿

学习robots协议

评论来自电脑端时间:2013-07-13 11:39:03

顶: 0 踩: 0 回复

88楼

诺伊网

robots协议我猜除了谷歌、雅虎能够真正的遵守，其他的国内的搜索都未必会完全遵守。
不过，我发现，添加了robots协议有个网站目录暴露的危险，你不想让搜索搜录某些目录，可是人能够看到这个robots，并且能够找到你的禁止收录的目录，对这，请教一下卢松松朋友，你怎么看？

评论来自电脑端时间:2013-07-13 11:37:23

顶: 0 踩: 0 回复

89楼

摇滚百科网

科普了

评论来自电脑端时间:2013-07-13 11:31:56

顶: 0 踩: 0 回复

90楼落梵

狠狠抓取不一定就收录！！！看到抓取也别高兴太早！哈哈！

跟帖来自电脑端时间:2013-07-13 11:15:51

顶: 0 踩: 0 回复

91楼

智享互联

对于站点地图只写入xml像html的和txt的站点地图需要写入吗？

评论来自电脑端时间:2013-07-13 11:07:12

顶: 0 踩: 0 回复

92楼

wordpress教程网

不错收藏学习了

评论来自电脑端时间:2013-07-13 10:38:50

顶: 0 踩: 0 回复

93楼

汪棒棒

这是一篇介绍robots的好文章，就是太长了。对我个人而言，作者能考虑下用户就好了。

评论来自电脑端时间:2013-07-13 10:34:12

顶: 0 踩: 0 回复

93楼淋巴水肿

赞成你的说法

跟帖来自电脑端时间:2013-07-13 14:29:06

顶: 0 踩: 0 回复

94楼

红颜情人社区

哈哈！不过，我们倒是希望百度来抓取！狠狠的收录。

评论来自电脑端时间:2013-07-13 10:20:43

顶: 0 踩: 0 回复

94楼落梵

狠狠抓取不一定就收录！！！看到抓取也别高兴太早！哈哈！

跟帖来自电脑端时间:2013-07-13 11:15:51

顶: 0 踩: 0 回复

95楼

PHP二次开发

额，好久没有沙发了，今天终于有机会了，不过好像百度不太遵守robots哦！

评论来自电脑端时间:2013-07-13 10:12:46

顶: 0 踩: 0 回复

卢松松博客

玩转robots协议

| 阅读量 | 分类: 经验心得 | 作者: 读者投稿 | 时间：2013年07月13日 10:09

初识robots协议

基本玩法

高阶玩法

真的有用?

发表感想加入微信群

document.write('<a href="https://console.songsongyun.com/login/?back_url='+encodeURI(window.location.href)+'" target="_blank"><i class="fa fa-sign-in"></i> 点此登录松松云平台免费<i class="fa fa-address-card-o"></i>认证</a>');

云服务目录导航站

天天特价

句子吧

程序猿小黄

房源采集软件

网站目标关键词优化技巧

站长网站教程大全

SEO教程文字版大集合

刷贝网

创业博客

祝福语

爱车网

九块九包邮

宁波自考

王牌论坛

不干胶标签印刷

A8电脑技术博客

vfhky

seo博客

seo博客

seo博客

987网赚论坛

压片机

压片机

godlu1

苹果手机套

快活林活性炭

自由飞翔的翅膀

追梦无痕

电脑中国

寇铈鑫

广场舞

点餐机代理

声卡驱动器官方下载

小本创业

站长百科

陈念博客

浮生未满

刘兆华

粉肚兜

Ahui

玉皇报

上海德威健康

365导航

emehost

最新电视剧

阿兴博客

杭州seo

吴贤祖博客

圆点网络传媒

艾默生变频器

印度易瑞沙

手写体网

惠尚佳品商城

坐月子注意事项

一刀博客

大发

大主宰5200

婴儿理发器

石家庄分类信息

海盐博客

虚拟主机服务商

购疯狂

肖玉宸

EinCy

恩泽微创

ledusz

寇铈鑫

一心

挖当软件

千度博客

相关文章阅读更多：搜索引擎网站优化