-
最近有站长在网上发文吐槽表示,字节跳动为了快速发展搜索业务派出爬虫四处抓取网站内容,给中小网站主们造成了很大的损失和困扰,影响了网站正常的用户访问。
该站长表示,今年7月份,他突然发现公司的网站经常性打不开,网页加载极其缓慢,有时甚至直接瘫痪。经过一系列排查后,在服务器日志上发现了bytespider爬虫的痕迹。该爬虫抓取的频率每天达几百万次,高则上千万次,服务器带宽负载飙至100%,而且该爬虫在抓取时完全不遵守网站的robots协议。
该站长顺着该爬虫的IP地址查询,证实,该爬虫就是字节跳动的搜索爬虫。
并且,在CSDN、V2EX等技术论坛也了解到,从字节跳动开始做搜索之后,其实网络上就一直有站长抱怨头条搜索爬虫抓取过于暴力的声音,遭受字节跳动的搜索爬虫暴力抓取的不是个例,很多小网站他们也没放过。
有小网站主抱怨表示:字节跳动的爬虫“一上午对网站发出46万次请求”,网站都瘫痪了,百度也没有这么折腾的!
最后,该站长表示,像我们这样做SEO的人来说,主要工作目标就是希望自己家网站能在主流搜索引擎的搜索结果中排在前面的位置,“对于像百度、搜狗、360等搜索引擎的规范抓取和收录各位站长都是非常欢迎的,但是头条搜索爬虫这样疯狂爬取内容网站都给整瘫痪了,不仅没给网站带来流量,还影响了正常的用户访问,这就很不“讲究”了。
但是对此,字节跳动的搜索部经理表示:文章所述今年七八月份头条搜索出现的爬虫问题,目前已经进行了优化升级,并且对抓取压力做了更有效的控制,头条搜索一直在关注站长及专业人员反馈的抓取问题,联系了部分发帖/文档反馈的网站及个人,我们分析了原因并对系统进行了迭代改进。目前看反馈已经有效改善。会持续关注反馈继续改进。
所以通过头条搜索爬虫暴力抓取网站内容来看,磊哥个人觉得,字节跳动入局全网搜索搅动搜素市场是好事,国内的搜索公司也该活动活动了,但是搜索引擎的索引数据这种东西是靠点滴积累起来的,百度、搜狗.360经历了那么多年的发展积累才走到今天,头条搜索想在这方面赶超还有很长一段路要走!
顶: 5 踩: 0相关阅读:
来源:卢松松博客 QQ/微信:13340454
站长吐槽:头条搜索爬虫暴力抓取网站内容
| 阅读量 | 分类: 微新闻 | 作者: 磊哥-松松推广
相关文章阅读更多:搜索引擎 头条搜索
- 2020-10-04 李彦宏向内容推荐算法开炮
- 2020-09-23 头条搜索上线搜索竞价广告
- 2020-02-29 字节跳动推出“头条搜索”独立App
- 2020-01-02 头条搜索上线免费官网认证功能
- 2019-12-02 头条搜索精准问答开放搜索合作入驻
- 2019-11-14 新版今日头条主推“头条搜索
- 2019-11-13 小道消息:头条搜索正在内测头条搜索站长平台
- 2019-11-01 站长之家上线头条权重
- 2019-08-12 头条搜索网页版正式上线
- 2019-08-02 字节跳动正式进军搜索市场
- 2019-03-07 今日头条欲做号内搜索,可搜站外不少内容
- 2021-09-08凡是在卢松松博客投稿的作者都有机会得到IT类图书哦!
发表感想加入微信群
小老表博客
字节跳动爬虫码农以为自己很聪明
2202431350/24
2202431360/24
表现:实名/匿名UA访问robotstxt文件,但抓取具体页面时使用以上网段ip匿名抓取,UA伪装成各种移动和桌面设备
目前确定了这两个网段,其他网段还在监控中
以上网段也可以直接rdns看出来是字节跳动的爬虫,建议不需要头条搜索的站长直接屏蔽
黔贷哥
龙奇网
一级建造师招聘
一级建造师招聘
苦心ios导航
头条搜索
2、头条搜索一直在关注站长及专业人员反馈的抓取问题,联系了部分发帖/文档反馈的网站及个人,我们分析了原因并对系统进行了迭代改进。目前看反馈已经有效改善。会持续关注反馈继续改进。
3、公开的问题反馈渠道:bytespider@bytedance
SLAM
丁酸梭菌
品生医生集团
神速查微信机器人电商刷单辅助软件
淘宝优惠券
虚拟产品日入300
看干货涨知识上友圈网
素材火
冯耀宗
www.tingshuba.net
奶奶的
百万链
伯正博客
夏日博客
免费收录
BT电影之家
1
区块链技术
深圳APP开发
温州APP开发
230个网赚博客
犀牛大叔