-
百度站长学院前几天公布了一个案例,里面提到一些细节,特别值得站长重视。
它这个页面对爬虫爬取做的优化,直接将图片二进制内容放到了html中导致页面长度过长,大小164K,导致内容不被百度收录。
网站如果针爬虫做优化,那么网页的长度最要在128K以内,不要过长。不然爬虫抓取内容后,页面内容过长被截断,已抓取部分无法识别到主体内容,最终导致页面被认定为空短而不收录。
言下之意,这可能是百度技术缺陷导致,如果网页在128K以上,爬虫无法抓取就无法收录。如果各位站长的网站内容过长,尽量删除一部分不太重要的信息,以保证内容收录。
百度工程师建议:
1、不建议站点使用js生成主体内容,如js渲染出错,很可能导致页面内容读取错误,页面无法抓取
2、 如站点针对爬虫爬取做优化,建议页面长度在128k之内,不要过长
3、针对爬虫爬取做优化,请将主题内容放于前方,避免抓取截断造成的内容抓取不全
顶: 10 踩: 1来源:卢松松博客 QQ/微信:13340454
百度:网页长度大于128k会影响甚至不收录
| 阅读量 | 分类: 微新闻 | 作者: 卢松松
相关文章阅读更多:站长
- 2024-10-25 自驾两次后,便再不想自驾游了
- 2024-09-06 我卖掉了做了五年的站长网,得到的问题与思考
- 2024-03-25 日流量10万的网站无法变现
- 2024-03-13 项目凋零,大佬隐退的真实原因
- 2023-09-12 励志一生网站(lz13.cn)拟40万出售
- 2023-07-01 网站建设与网站推广哪个流量大?说说SEO关键词怎么选
- 2023-06-29 分享我做自媒体所经历的那些弊端
- 2023-06-02 为什么说网站行业不能做了?
- 2023-05-30 成立16年的新手站长论坛关站
- 2023-04-07 如何分配自己的时间?时间管理四象限心得与方法技巧
- 2023-02-04 昨晚我在直播间提到一个观点
- 2022-12-06 纪念DedeCMS创始人IT柏拉图先生
- 2022-12-05 DedeCMS创始人IT柏拉图先生去世
- 2022-12-01 17条卢松松近期言论汇总
- 2021-09-08凡是在卢松松博客投稿的作者都有机会得到IT类图书哦!
发表感想加入微信群
短信验证码平台
福神
四叶草
百万IP流量亿级PVUV
可乐先森博客
感觉牛逼啊
奈博网微商新闻品牌发布平台
上海陆尊租车
纳米三防漆
贵阳美甲化妆半永久
轴承型号查询
文都国际教育
茶人码头网
搜推宝排名大师
触摸一体机
八字算命
申永祥自媒体博客
132
无损检测
老建装饰
成都seo排名第三