-
百度曾在站长贴吧里做过这样一个回复:从用户体验角度,“有些转载未必比原创差”。比方一篇科技原创博文,被知名门户网站的科技频道转载。如果这种转载保留原创者姓名和出处链接,实际上对原创者是有利的,因为起到了更好的传播效果。只是国内的转载,很多是掐头去尾,使原创者比较受伤。
据资料表明近似重复网页的数量占网页总数的的比较高达全部页面的29%,而完全相同的页面大约占全部页面的22%。很多站长都会抱怨,自己写的文章被转载后要么排名消失、要么转载站排在前面,比如下图:
在解决这个问题之前,我认为有必要了解下搜索引擎的“去重算法框架”,换个角度看看搜索引擎是怎么给网页去重的。
你的网页什么时候会被删除?
因为互联网上有大约22%的内容是相同的,一旦你的文章发表在网上,就有可能会被转载,而一般判断帮你的网页为转载,那么搜索引擎一般会从三个时间段来删除你的网页:
(1)抓取页面的时候删除,这样可以减少搜索引擎带宽以及减少存储数量;
(2)收录之后删除重复网页;
(3)用户检索时候进行再次删除;增加准确性,耗费时间;
内容重复的4种类型:
1.如果2篇文章内容和格式上毫无差别,则这种重复叫做“完全重复页面”
2.如果2篇文章内容相同,但是格式不同,则叫做“内容重复页面”
3.如果2篇文章有部分重要的内容相同,并且格式相同,则称为“布局重复页面”
4.如果2篇文章有部分重要的内容相同,但是格式不同,则称为“部分重复页面”
删除重复网页对于搜索引擎有很多好处:
1.如果这些重复网页并从搜索引擎数据库中去掉,就能节省一部分存储空间,提高检索的质量。
2.为了提高网页的搜集速度,搜索引擎会对以往搜集信息的分析,预先发现重复网页,在今后的网页搜集过程中就可以避开这些网页,这就是为什么总转载的网站排名不高的原因了。
3.对某个镜像度较高的网页,搜索引擎会赋予它较高的优先级,当用户搜索时就会赋予它较高的权重。
4. 近似镜像网页的及时发现有利于改善搜索引擎系统的服务质量,也就是说如果用户点击了一个死链接,那么可以将用户引导到一个相同页面,这样可以有效的增加用户的检索体验。
通用去重算法框架
对于网页去重任务,具体可以采取的技术手段五花八门,各有创新和特色,但是如果仔细研究,其实大致都差不多。
上图给出了通用算法框架的流程图,对于给定的文档,首先要通过一定特抽取手段,从文档中抽取出一系列能够表征文档主题内容的特征集合。这一步骤往往有其内在要求,即尽可能保留文档重要信息,删除无关信息。之所以要删除部分信息,主要是从计算速度的角度考虑,一般来说,删除的信息越多,计算速度会越快。
这就是为什么你想做的关键字总没有排名,反而不想做的关键词却能排名靠前的原因之一,搜索引擎把它认为不重要的词语删除了。
顶: 1 踩: 0相关阅读:
来源:卢松松博客 QQ/微信:13340454
搜索引擎是怎么删除重复网页的
| 阅读量 | 分类: SEO推广 | 作者: 卢松松
相关文章阅读更多:搜索引擎 SEO优化
- 2023-09-27 百度搜索逐步恢复优质网站权限
- 2023-09-06 被百度判定为低质量网站了!如何整改?
- 2023-08-17 SEO是人人都可以挖的金矿,SEO终极算法第四部!
- 2023-08-11 公众号垂直SEO领域3万粉丝,做对了什么?
- 2023-07-01 网站建设与网站推广哪个流量大?说说SEO关键词怎么选
- 2023-06-15 Google SEO怎么做?谷歌seo优化包含哪些内容?
- 2023-04-26 跨境电商卖家如何用SEO的思维提升排名
- 2023-04-09 本地生活商业流量SEO怎么做?
- 2023-02-20 对话ChatGPT,微信SEO怎么做及搜商与问商是什么
- 2023-02-15 百家号卡位排名是什么意思及怎么优化
- 2023-02-14 百度流量闭环了,SEO还能怎么搞
- 2023-01-20 SEO转型系列之十二,SEO如何转行私域流量运营?
- 2023-01-20 2023年了,做百度SEO还有出路吗
- 2023-01-13 企业网站SEO中各个页面的title用统一后缀标题有什么用
- 2021-09-08凡是在卢松松博客投稿的作者都有机会得到IT类图书哦!
发表感想加入微信群
回收废旧物资
找纸网
防辐射孕妇装
光影星博客
郑州衡鑫电子衡器有限公司
内涵图
精密管
美食家
我爱喵呜
秦远征博客
爱思优
邯郸治疗白癜风
武汉seo
草根5待
石家庄seo
人才
wifi共享精灵
大艺术家Jolin新专辑大卖
执子之手
由 卢松松 于 2012-10-11 17:07:54 最后编辑
搜客网
天津搬家公司
郝剑波博客
川腾彩绘
夜猫网赚
武汉seo
沙滩上的紫贝壳
火车头采集爱好者
高难度采集推广=》qq:972130397
吴克难的博客
水长东
山寨吧
祈雨其雨
名表排行榜
番茄
深圳网站建设
我们网站是新的,文章在我们网站首发,但其它权重比我们高的网站采集我们网站内容,会影响我们网站内容收录吗?
西安SEO
康莱斯
马熙尧
茅屋网
李涛
彬彬博客
KanCBA
79男人
免费商业源码
刘兆华
得道SEO
日照网社区
广州电信
草鞋码头
想搞网站
儿童安全座椅什么牌子好
国外新鲜资讯
友众
hostgator优惠码
丁力
免费天空网
app
闵非凡
美丽说蘑菇街
龙三公子
水
tui56
流量计
来秀美
王光卫中文博客
左岸格调
大连电脑维修
焕妍坊
中国美术高考网
潮乐购
陈念
旅途者
阿里妈妈博客
如何做网站
小学生作文大全
腰椎间盘突出症的治疗方法
购物分享
空渡.博客
王坤
御宅族
V9站长网
关键词排名提升工具
美标睡衣
水长东
御宅族
长沙seo
两对半
鹿胎膏
推广者博客
赵强的博客
胡益博
电脑医生
似水流年
43度
43度
户口网
luacloud
周继松博客
难人海
美丽说蘑菇街
ylhn