-
一、搜索引擎为什么要重视原创
1.1 采集泛滥化
来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艰难又具有挑战性的事情。
1.2 提高搜索用户体验
数字化降低了传播成本,工具化降低了采集成本,机器采集行为混淆内容来源降低内容质量。采集过程中,出于无意或有意,导致采集网页内容残缺不全,格式错乱或附加垃圾等问题层出不穷,这已经严重影响了搜索结果的质量和用户体验。搜索引擎重视原创的根本原因是为了提高用户体验,这里讲的原创为优质原创内容。
1.3 鼓励原创作者和文章
转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。
二、采集很狡诈,识别原创很艰难
2.1 采集冒充原创,篡改关键信息
当前,大量的网站批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的。
2.2 内容生成器,制造伪原创
利用自动文章生成器等工具,“独创”一篇文章,然后安一个吸引眼球的title,现在的成本也低得很,而且一定具有独创性。然而,原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特,但是不具社会共识价值,此类伪原创是搜索引擎需要重点识别出来并予以打击的。
2.3 网页差异化,结构化信息提取困难
不同的站点结构化差异比较大,html标签的含义和分布也不同,因此提取关键信息如标题、作者和时间的难易程度差别也比较大。做到既提得全,又提得准,还要最及时,在当前的中文互联网规模下实属不易,这部分将需要搜索引擎与站长配合好才会更顺畅的运行,站长们如果用更清晰的结构告知搜索引擎网页的布局,将使搜索引擎高效地提取原创相关的信息。
三、百度识别原创之路如何走?
3.1 成立原创项目组,打持久战
面对挑战,为了提高搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进,我们抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,我们做好了打持久战的准备。
3.2 原创识别“起源”算法
互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。我们的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。
首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;
其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;
最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。
目前,通过我们的实验以及真实线上数据,“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待“起源”去解决,我们坚定的走着。
3.3 原创星火计划
我们一直致力于原创内容的识别和排序算法调整,但在当前互联网环境下,快速识别原创解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题。这些因素都会影响原创算法识别,甚至导致判断出错。这时候就需要百度和站长共同努力来维护互联网的生态环境,站长推荐原创内容,搜索引擎通过一定的判断后优待原创内容,共同推进生态的改善,鼓励原创,这就是“原创星火计划”,旨在快速解决当前面临的严重问题。另外,站长对原创内容的推荐,将应用于“起源”算法,进而帮助百度发现算法的不足,不断改进,用更加智能的识别算法自动识别原创内容。
目前,原创星火计划也取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。
最后,原创是生态问题,需要长期的改善,我们将持续投入,与站长携手推动互联网生态的进步;原创是环境问题,需要大家来共同维护,站长们多做原创,多推荐原创,百度将持续努力改进排序算法,鼓励原创内容,为原创作者、原创站点提供合理的排序和流量。
文章来源:百度站长平台站长学院
顶: 10 踩: 15相关新闻:
来源:卢松松博客 QQ/微信:13340454
百度给出了判断原创文章的方法,你们感受一下
| 阅读量 | 分类: 好文分享 | 作者: 卢松松
相关文章阅读更多:百度 网络日志
- 2024-11-13 如此恶性循环,屌丝创业者都不跟百度玩了
- 2024-09-27 别人都在百度云智大会上吹,我就说点别的……
- 2024-09-14 百度起诉知名站长工具5118
- 2024-07-27 萝卜快跑可能要凉凉了!
- 2024-07-24 萝卜快跑背后:网约车司机不应成为所有人的就业底线
- 2024-07-22 当年的百度贴吧是最好用的社交平台,可惜了
- 2024-07-18 这位少年说长大开AI公司,收购百度
- 2024-07-11 百度将成为中国最大的出租车运营公司
- 2024-07-01 网传江苏本地最大的百度总代倒闭
- 2024-06-07 谁能赢?阿里的通义 VS 百度的文心
- 2024-06-05 百度最终还是错过了最重要的风口
- 2024-05-10 璩静是为了薅百度羊毛
- 2024-05-07 为了老板李彦宏,百度公关豁出去了
- 2024-04-17 李总别拉踩AI同行了
- 2021-09-08凡是在卢松松博客投稿的作者都有机会得到IT类图书哦!
发表感想加入微信群
世界协会助力您
运营推广
百度
百度竞价软件www.kuaitou365
紫星系
无轨电动平车
赢法网
太原万达名品
2017最新小项目加盟
归璞乡村旅游网
蘑菇娱文化
木庄网络博客
呼兮
考研手绘网
民宿人中国平台
蜜舒宝
百分百QQ加好友软件
邯郸建站网
java商城系统
百度提交原创数据,对原创数据的解释:当前提交成功的去重后原创类型数据
这句话不是特别理解~一般是提交链接好还是提交原创数据呢?
考试真题网
石家庄外墙清洗
柚子
哈哈之家影评网
好品折
内涵图
高清图片
东北仪器网
张春豹的博客
PHNIX特种
品牌家纺加盟
塑料网套
盗墓笔记
就拿小说来说,所有的小说贴吧都会第一时间盗版正版网站的小说文章,百度你不是一直睁一只眼闭一只眼吗,我觉得百度是两着眼都睁着在放纵盗版。
然后以盗版之名封杀其他盗版网站,但是hao123小说又把流量导向另外一些小说盗版网站,我怀疑那些小说盗版网站,直接就是百度自己的。
国内巨头都是流氓,是你们带坏了互联网吧,还在装卫道士。婊·子还立牌坊,装清纯,我只能说,恶心。
seo博客
天天养生堂
变频器
七星辅助
昆明买菜网
雨盟赚钱网
群贤网
地盘
金牌猫博客
小小鱼苗
深圳竞价托管
飞扬画材
白看一遍
经典台词大全
女包货源
内涵图
男性保健品
母婴用品
海淘Hai360
内蒙百度推广
性生活
玉环德工
挽回爱情
时尚淘店1号
爱福莱
汪棒棒
瘊子治疗网
龙三公子
爱小志网赚博客
郭博岳
水热反应釜
双层玻璃反应釜
TWAIN扫描识别
这个说法出处是哪里来着??想不起来了,谁提醒我一下
点餐机
漯河seo
制砂机设备
四川徒步网
小刀博客
程志昂
声卡驱动器官方下载
淘作文
墙贴好不好
王宝臣
deleteblank
汽车信息网
PHP二次开发
献县嘉德除尘设备
弯柚
弯柚
即使星火计划出来了,如果你的是新站一样白搭
恩典图片
罗宾屋
购社区
IT博客
聚龙