百度：巧用robots避免蜘蛛黑洞

| 阅读量 | 分类: 微新闻 | 作者: 卢松松 | 时间：2014年10月16日 17:45

百度站长平台刚刚发布了一个小技巧：巧用robots避免蜘蛛黑洞。

比如很多网站都有筛选功能，通过筛选功能产生的网页经常会被搜索引擎大量抓取，而这其中很大一部分检索价值不高。

如“500-1000之间价格的租房”，首先网站(包括现实中)上基本没有相关资源，其次站内用户和搜索引擎用户都没有这种检索习惯。

这种网页被搜索引擎大量抓取，只能是占用网站宝贵的抓取配额。

那么该如何避免这种情况呢?

我们以北京某团购网站为例，看看该网站是如何利用robots巧妙避免这种蜘蛛黑洞的：

对于普通的筛选结果页，该网站选择使用静态链接，如：http://bj.XXXXX.com/category/zizhucan/weigongcun
同样是条件筛选结果页，当用户选择不同排序条件后，会生成带有不同参数的动态链接，而且即使是同一种排序条件(如：都是按销量降序排列)，生成的参数也都是不同的。如：http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

对于该团购网来说，只让搜索引擎抓取筛选结果页就可以了，而各种带参数的结果排序页面则通过robots规则拒绝提供给搜索引擎。

robots.txt的文件用法中有这样一条规则：Disallow: /*?* ，即禁止搜索引擎访问网站中所有的动态页面。该网站恰是通过这种方式，对Baiduspider优先展示高质量页面、屏蔽了低质量页面，为Baiduspider提供了更友好的网站结构，避免了黑洞的形成。

扩展阅读：蜘蛛黑洞特指网站通过极低的成本制造出大量参数过多，及内容雷同但具体参数不同的动态URL ，就像一个无限循环的“黑洞”将spider困住，Baiduspider浪费了大量资源抓取的却是无效网页。

顶: 0 踩: 0

来源：卢松松博客 QQ/微信：13340454 ，转载请注明出处！

本文地址：https://lusongsong.com/blog/post/1085.html

发表感想加入微信群

热门跟帖

山姆娱乐

百度又抽风了，site命令下，出现大量不是本人网站的链接

评论来自电脑端时间:2014-12-09 09:10:26

顶: 1 踩: 0 回复

2楼

MBA中国网

恩，不错，又新学到了点东西！

评论来自电脑端时间:2014-11-28 11:16:30

顶: 1 踩: 0 回复

3楼

东盟购

八错八错用的巧的还真好

评论来自电脑端时间:2014-10-30 11:38:16

顶: 1 踩: 0 回复

4楼他她服装搭配网

这个还不大会用，听你这么说抽空了解下。

跟帖来自电脑端时间:2014-10-24 14:49:56

顶: 1 踩: 0 回复

5楼

v587

这种问题建议私下交流就好了啊！

评论来自电脑端时间:2014-10-24 09:22:23

顶: 1 踩: 0 回复

6楼

ringinter

canonical也可以实现这个功能

评论来自电脑端时间:2014-10-22 17:05:17

顶: 1 踩: 0 回复

7楼

威友丝网制品

我是初学者，看不太明白

评论来自电脑端时间:2014-10-22 06:11:44

顶: 1 踩: 0 回复

8楼

跑步机什么牌子好

目前网站用不上这个，不过学习一下还是不错的。

评论来自电脑端时间:2014-10-21 08:29:33

顶: 1 踩: 0 回复

9楼 518工作室

在这里留这样的问题，有点不太合适吧?哥们！这种问题建议私下交流就好了啊！

跟帖来自电脑端时间:2014-10-19 20:49:18

顶: 0 踩: 0 回复

10楼老刘笔记

我用的是欲思博客发布的Yusi主题。
你可以在我网站底部找到链接，或者搜索欲思博客。

跟帖来自电脑端时间:2014-10-18 22:17:58

顶: 0 踩: 0 回复

11楼他她服装搭配网

我比较喜欢看松哥这儿的文章，简短精悍，信息及时。

跟帖来自电脑端时间:2014-10-18 22:08:47

顶: 0 踩: 0 回复

12楼他她服装搭配网

说的很对，因为我的网站采用的是伪静态，所以我用了这个来屏蔽搜索引擎抓取动态链接。

跟帖来自电脑端时间:2014-10-18 22:07:33

顶: 0 踩: 0 回复

13楼他她服装搭配网

我网站目前用的是卢松松主题，很想换个主题焕然一新视觉一下，请问您的主题叫上面，哪儿有下载不（因为我觉得还蛮对我的胃口哦）。

跟帖来自电脑端时间:2014-10-18 22:06:24

顶: 0 踩: 0 回复

14楼

手机游戏排行榜

我也不是很懂受教

评论来自电脑端时间:2014-10-18 21:37:17

顶: 0 踩: 0 回复

15楼

计算机编程

不明白百度

评论来自电脑端时间:2014-10-18 20:32:31

顶: 0 踩: 0 回复

16楼

老刘笔记

还不太明白这些，先记下来。

评论来自电脑端时间:2014-10-18 20:22:48

顶: 0 踩: 0 回复

17楼

洛阳阀门

百度又抽风了，site命令下，出现大量不是本人网站的链接

评论来自电脑端时间:2014-10-17 16:01:10

顶: 0 踩: 0 回复

18楼

唯美图

用Disallow: /*?*屏蔽蜘蛛收录动态网页适用于启用了伪静态或者真静态的网站，全站都是动态的网页就不能用这个了。

评论来自电脑端时间:2014-10-17 14:13:21

顶: 0 踩: 0 回复

19楼

90日记

对大型网站来说，robotstxt太重要了，很多东西都不希望被蜘蛛抓取。当然，个人博客也就无所谓了！

评论来自电脑端时间:2014-10-17 13:26:10

顶: 0 踩: 0 回复

20楼他她服装搭配网

马上就要“双11网购狂欢节”了，推广能力强或者网站流量大的朋友又可以大赚一笔了，令我十分羡慕呀。

跟帖来自电脑端时间:2014-10-17 11:57:02

顶: 0 踩: 0 回复

21楼他她服装搭配网

我倒觉得很有必要，因为博客也会生成很多动态链接，比如网站地图等。

跟帖来自电脑端时间:2014-10-17 11:54:45

顶: 0 踩: 0 回复

22楼

他她服装搭配网

Disallow: /*?*——这个我得小站在几天前刚刚加上，它是动态链接并且大量重复，屏蔽了之后对搜索引擎友好，值得注意和很有必需使用。

评论来自电脑端时间:2014-10-17 11:52:11

顶: 0 踩: 0 回复

23楼

吴涛

规则很实用，之前在站长平台上看到过。

评论来自电脑端时间:2014-10-17 11:50:28

顶: 0 踩: 0 回复

24楼

wingsBlog

貌似用不上

评论来自电脑端时间:2014-10-17 11:37:57

顶: 0 踩: 0 回复

25楼

提升机

这个很好，是一个小技巧

评论来自电脑端时间:2014-10-17 11:05:38

顶: 0 踩: 0 回复

26楼

北京电线电缆

对个人而言有点不懂。。。

评论来自电脑端时间:2014-10-17 10:28:28

顶: 0 踩: 0 回复

27楼

石头

学习了，虽然程序部分比较弱，但是还是可以慢慢积累的

评论来自电脑端时间:2014-10-17 09:53:58

顶: 0 踩: 0 回复

28楼

企业管理软件

“优先展示高质量页面、屏蔽了低质量页面”，说得对，被抓取太多低质量的网页，对网站整理质量也有影响。
【红博客】-关注中小企业及创业

评论来自电脑端时间:2014-10-17 09:53:14

顶: 0 踩: 0 回复

29楼

找折购

我之前就没有真正理解这个文件，基本是直接删除。

评论来自电脑端时间:2014-10-17 09:43:40

顶: 0 踩: 0 回复

30楼

大学生的生意经

这是百度出来的，我都不知道有抓取份额的，我以为是大量抓取，随意抓取的。。

评论来自电脑端时间:2014-10-17 09:42:33

顶: 0 踩: 0 回复

31楼

投资移民

感觉很腻害的样子啊哈

评论来自电脑端时间:2014-10-17 09:32:38

顶: 0 踩: 0 回复

32楼

2014天猫双十一购物清单

蜘蛛黑洞特指网站通过极低的成本制造出大量参数过多，及内容雷同但具体参数不同的动态URL ，就像一个无限循环的“黑洞”将spider困住，Baiduspider浪费了大量资源抓取的却是无效网页。

评论来自电脑端时间:2014-10-17 09:29:21

顶: 0 踩: 0 回复

33楼

响应网酒店预订

每个筛选结果可以令设置标题、关键字、描述，和行业相关独立开来的关键页面。。

评论来自电脑端时间:2014-10-17 09:28:09

顶: 0 踩: 0 回复

34楼

人生那点事

百度出的

评论来自电脑端时间:2014-10-17 09:24:35

顶: 0 踩: 0 回复

35楼

鸡公煲论坛

很实用

评论来自电脑端时间:2014-10-17 09:13:54

顶: 0 踩: 0 回复

36楼

飞微网

这个昨天刚看了，百度一版主发的。。

评论来自电脑端时间:2014-10-17 08:58:30

顶: 0 踩: 0 回复

37楼

苏州网站建设

提供有用的内容是王道

评论来自电脑端时间:2014-10-17 00:43:32

顶: 0 踩: 0 回复

38楼

学生创业

对于一般博客这个规则Disallow: /*?* 似乎没有，呵呵！

评论来自电脑端时间:2014-10-16 22:21:02

顶: 0 踩: 0 回复

39楼

明星图片

我的明星网站怎么被K了，排名全部掉了。查不到原因。

评论来自电脑端时间:2014-10-16 22:11:30

顶: 0 踩: 0 回复

40楼

域名抢注

这个可以试试哦，有它的价值吧

评论来自电脑端时间:2014-10-16 21:44:22

顶: 0 踩: 0 回复

41楼

那么问题来了

我懂逻辑和程序，完全没怎么看懂。

评论来自电脑端时间:2014-10-16 21:28:20

顶: 0 踩: 0 回复

42楼

广西旅行社

适用于一部分网站，像自己更新本来就不多，更谈不上要屏蔽抓取了。。。

评论来自电脑端时间:2014-10-16 18:28:54

顶: 0 踩: 0 回复

43楼

稳定虚拟主机推荐

不错！学习了需要虚拟主机 VPS的看我地址

评论来自电脑端时间:2014-10-16 18:27:33

顶: 0 踩: 0 回复

44楼

ajian

百度终于有新闻了，卢松松好开心，终于不用发心灵鸡汤文了

评论来自电脑端时间:2014-10-16 18:17:54

顶: 0 踩: 0 回复

45楼

极品飞鸽

额，这样也行

评论来自电脑端时间:2014-10-16 18:11:03

顶: 0 踩: 0 回复

45楼新手日入一百

人不学，不知道。多尝试，多总结，才能遇到更多的机会。

跟帖来自电脑端 · 中国山东济南时间:2018-10-08 21:35:16

顶: 0 踩: 0 回复

卢松松博客

百度：巧用robots避免蜘蛛黑洞

| var nbcacheviewtemp=Math.floor(Math.random()*9999);$("#nbcache2757").attr("id","nbcache2757"+nbcacheviewtemp);Nobird_Cache_AddViewNums(8259,2757,nbcacheviewtemp) 阅读量 | 分类: 微新闻 | 作者: 卢松松 | 时间：2014年10月16日 17:45

发表感想加入微信群

document.write('<a href="https://console.songsongyun.com/login/?back_url='+encodeURI(window.location.href)+'" target="_blank"><i class="fa fa-sign-in"></i> 点此登录松松云平台免费<i class="fa fa-address-card-o"></i>认证</a>');

山姆娱乐

MBA中国网

东盟购

v587

ringinter

威友丝网制品

跑步机什么牌子好

手机游戏排行榜

计算机编程

老刘笔记

洛阳阀门

唯美图

90日记

他她服装搭配网

吴涛

wingsBlog

提升机

北京电线电缆

石头

企业管理软件

找折购

大学生的生意经

投资移民

2014天猫双十一购物清单

响应网酒店预订

人生那点事

鸡公煲论坛

飞微网

苏州网站建设

学生创业

明星图片

域名抢注

那么问题来了

广西旅行社

稳定虚拟主机推荐

ajian

极品飞鸽

相关文章阅读更多：SEO新闻 百度

作者介绍

| 阅读量 | 分类: 微新闻 | 作者: 卢松松 | 时间：2014年10月16日 17:45

相关文章阅读更多：SEO新闻百度