卢松松博客

网曝百度不顾robots协议擅自抓取微信内容

 人参与 | 时间:2015年12月28日 15:14

刚刚收到通知:百度现在已删除相关内容!

搜狗合作了知乎和微信,乐视贾老板倾家荡产维护版权,大家都在努力创造独家资源,看到微信独家数据,百度这是眼红得坐不住了。

[email protected]:百度不顾robots协议擅自抓取微信内容和应用,原文是这样的:

昨天有点事情忙到晚上,突然碰到了一个搜狗的哥们跟我抱怨平安夜还要被迫加班,想到很久没见,想一起吃个宵夜但是没有实现,说是忙不过来,今天又详细的了解了一下,原来微信公众号的数据被百度不顾robots协议大量的抓取和应用,他不得不处理反抓到凌晨,搞得平安夜都只能陪着看”百度spider“度过。虽然自己的微博荒废了很久,但还是不吐为快。

背景是这样子的,微信做了公众账号后,积累了大量高质量的作者和文章,养成了很大一批用户的阅读习惯。腾讯投资搜狗,开放微信数据供搜狗搜索独家使用,这部分数据对用户浏览和阅读需求的满足,能起到很大的帮助,也算是在搜索体验趋向于同质化的今天,能有效的带来“差异化”的体验点。所以,搜索靠腾讯的资源,将微信的公众号文章嵌入了搜狗搜索中,还开发了基于公众号的推荐应用微信头条。

当然,这种优质的独家数据是要进行独家保护的,搜狗也就用了搜索引擎常用的robots协议,对相应目录进行了限制,不允许其他搜索引擎抓取。关于robots协议,这是搜索引擎行业约定俗成的行规,可以限制其他搜索引擎抓取和索引相应内容。

网曝百度不顾robots协议擅自抓取微信内容 微新闻

搜狗搜索的爬虫协议对网站抓取内容的范围是做了明确规定的,百度爬虫没有任何权利抓取搜狗独家微信内容资源,这是事实。

相关阅读:

以后看知乎要上搜狗了:搜狗知乎正式合作

搜狗推出微信搜索

玩转robots协议

禁止搜索引擎收录的方法

顶: 0踩: 0

来源:,欢迎分享,(QQ/微信:13340454)

必填

选填

选填

◎已有 20 人评论,微信:QQ13340454

1楼特价免单网  2016-01-27 09:54:04
为了各自的利益 条约有时候毛用没有
顶: 0踩: 0 回复
2楼美女高清  2014-01-08 13:37:29
我和小伙伴们都惊呆了
顶: 0踩: 0 回复
3楼疾风  2013-11-26 18:10:44
跟幽灵一样,肯定要下厨心脏病
顶: 1踩: 0 回复
4楼91caoporn  2016-01-07 10:56:25
我觉得应该资源共享----------
顶: 0踩: 0 回复
5楼作文无忧网  2016-01-06 12:35:54
我觉得应该资源共享
顶: 0踩: 0 回复
6楼西安seo  2016-01-04 22:28:07
现在搜索引擎里面的内容采集太厉害了,搞得百度也忙了
顶: 0踩: 1 回复
7楼年化收益率  2016-01-02 20:18:40
百度怎么了呀
顶: 0踩: 0 回复
8楼你懂的网站  2015-12-30 14:17:15
息海量暴涨的今天,人们获取信息也爆棚,能更方便让准确的信息呈现给人
顶: 0踩: 0 回复
9楼逸春风520深海牡蛎酒  2015-12-30 10:32:19
信息海量暴涨的今天,人们获取信息也爆棚,能更方便让准确的信息呈现给人们就是好事
顶: 0踩: 0 回复
10楼wingsBlog  2015-12-29 21:05:53
又一场官司
顶: 0踩: 0 回复
11楼法律博客  2015-12-29 16:11:31
搜索引擎是连接人与信息,仅允许一家或仅不许一家搜索引擎对具有大量优质内容的网站内容进行索引,以便更好的连接人与信息,都是不可取的。
当年百度诉360违反协议抓取,这一块,百度是败诉的。
还一句话说,从法律角度来说,百度此举并不违法,违反协议只是其协议设置不当而已。
松松说,百度当年诉360的事情,来批评百度实际上是列举有利于百度的判例来指责百度,不可取。
因为通过该案就已经明确:这样的协议不利于公平竞争,不利于促进行业发展。搜索引擎本身并不是有价值信息的创造者,仅提供信息索引而已,几大搜索引擎表面上看上去在创造信息,实际上仅是因业务开展导致的主体重合而已。
顶: 0踩: 0 回复
12楼养牛补贴政策  2015-12-29 13:01:59
这都不叫事,能抓你那是人家看得起你。人家是老大,怕过谁。
顶: 0踩: 0 回复
13楼网上兼职吧  2015-12-29 09:42:22
用不惯搜狗
顶: 0踩: 0 回复
14楼山中人  2015-12-29 09:22:27
百度就是老大。想抓谁就抓谁
顶: 0踩: 0 回复
15楼测厚仪  2015-12-29 08:23:12
现在哪还有什么协议
顶: 0踩: 0 回复
16楼个人博客  2015-12-29 07:39:00
谁有信息谁是老大,谁是老大谁就挣钱。
顶: 0踩: 0 回复
17楼微信文章采集器  2015-12-28 22:11:53
怪不得搜狗变换一次又一次的,增加一条又一条的参数特征。百度都想打他的主意了。
顶: 0踩: 0 回复
18楼林间叶  2015-12-28 18:48:21
现在没有了,site不到了
顶: 0踩: 0 回复
19楼草根java  2015-12-28 18:34:33
我记得当时百度败诉了,允许360抓取。其实光通过协议限制抓取是不行的,要真想限制,那就从代码级屏蔽。
顶: 0踩: 0 回复
20楼李文建  2015-12-28 16:56:40
我试了一下现在百度搜不到了
顶: 0踩: 0 回复
21楼毛毛  2015-12-28 16:13:51
百度就是个疯子 前排留名
顶: 0踩: 0 回复
22楼2016贺岁档  2015-12-28 15:57:12
这个正常啊、
顶: 0踩: 0 回复