卢松松博客

百度给出了判断原创文章的方法,你们感受一下

 人参与 | 时间:2013年05月16日 20:08

一、搜索引擎为什么要重视原创

1.1 采集泛滥化

来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艰难又具有挑战性的事情。

1.2 提高搜索用户体验

数字化降低了传播成本,工具化降低了采集成本,机器采集行为混淆内容来源降低内容质量。采集过程中,出于无意或有意,导致采集网页内容残缺不全,格式错乱或附加垃圾等问题层出不穷,这已经严重影响了搜索结果的质量和用户体验。搜索引擎重视原创的根本原因是为了提高用户体验,这里讲的原创为优质原创内容。

1.3 鼓励原创作者和文章

转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。

百度给出了判断原创文章的方法,你们感受一下 好文分享

二、采集很狡诈,识别原创很艰难

2.1 采集冒充原创,篡改关键信息

当前,大量的网站批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的。

2.2 内容生成器,制造伪原创

利用自动文章生成器等工具,“独创”一篇文章,然后安一个吸引眼球的title,现在的成本也低得很,而且一定具有独创性。然而,原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特,但是不具社会共识价值,此类伪原创是搜索引擎需要重点识别出来并予以打击的。

2.3 网页差异化,结构化信息提取困难

不同的站点结构化差异比较大,html标签的含义和分布也不同,因此提取关键信息如标题、作者和时间的难易程度差别也比较大。做到既提得全,又提得准,还要最及时,在当前的中文互联网规模下实属不易,这部分将需要搜索引擎与站长配合好才会更顺畅的运行,站长们如果用更清晰的结构告知搜索引擎网页的布局,将使搜索引擎高效地提取原创相关的信息。

三、百度识别原创之路如何走?

3.1 成立原创项目组,打持久战

面对挑战,为了提高搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进,我们抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,我们做好了打持久战的准备。

3.2 原创识别“起源”算法

互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。我们的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。

首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;

其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;

最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序

目前,通过我们的实验以及真实线上数据,“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待“起源”去解决,我们坚定的走着。

3.3 原创星火计划

我们一直致力于原创内容的识别和排序算法调整,但在当前互联网环境下,快速识别原创解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题。这些因素都会影响原创算法识别,甚至导致判断出错。这时候就需要百度和站长共同努力来维护互联网的生态环境,站长推荐原创内容,搜索引擎通过一定的判断后优待原创内容,共同推进生态的改善,鼓励原创,这就是“原创星火计划”,旨在快速解决当前面临的严重问题。另外,站长对原创内容的推荐,将应用于“起源”算法,进而帮助百度发现算法的不足,不断改进,用更加智能的识别算法自动识别原创内容。

目前,原创星火计划也取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。

最后,原创是生态问题,需要长期的改善,我们将持续投入,与站长携手推动互联网生态的进步;原创是环境问题,需要大家来共同维护,站长们多做原创,多推荐原创,百度将持续努力改进排序算法,鼓励原创内容,为原创作者、原创站点提供合理的排序和流量。

文章来源:百度站长平台站长学院

相关新闻:

百度星火计划上线 网站原创时代到来

百度公布原创星火计划申请方式

2015年卢松松在“百度新好站”沙龙上的提问汇总

顶: 2踩: 3

来源:,欢迎分享,(QQ/微信:13340454)

原文地址:http://lusongsong.com/info/post/432.html

必填

选填

选填

◎已有 82 人评论,微信搜:QQ13340454

1楼蜜舒宝  2016-09-07 11:45:09
真不知道该怎么弄的好
顶: 0踩: 0 回复
2楼百分百QQ加好友软件  2016-08-26 11:49:11
原创的文章太难写了,而且被人转载的收录更快
顶: 1踩: 0 回复
3楼邯郸建站网  2016-08-12 10:06:45
原创的东西很少,即使是新浪网易等大的门户网站也都是靠采集。
顶: 0踩: 0 回复
4楼java商城系统  2016-07-21 18:01:01
您好,有个问题想要请教您
百度提交原创数据,对原创数据的解释:当前提交成功的去重后原创类型数据
这句话不是特别理解~一般是提交链接好还是提交原创数据呢?
顶: 0踩: 0 回复
5楼考试真题网  2016-07-11 09:02:25
我原创了,但转的收录更快
顶: 0踩: 0 回复
5楼访客  2016-08-17 10:22:25
因为人家的权重高
顶: 0踩: 0 回复
6楼石家庄外墙清洗  2016-07-02 12:07:27
石家庄外墙清洗网站管理员 韩先生来关注过本文了,看了本文后我的感受是以后要建立一个原创站点。谢谢博主的文章。
顶: 0踩: 0 回复
7楼柚子  2016-06-21 14:53:47
不晓得现在改没改,但是如果真的就靠转发,时间,来源,作者等就判断一篇文章,貌似也确实有点草率,但是我也将要走上原创之路了,但是作为一个文科生中弱鸡,出路在哪儿?
顶: 1踩: 0 回复
8楼哈哈之家影评网  2016-06-16 14:54:56
原创很难!我要坚持!
顶: 0踩: 0 回复
9楼好品折  2016-02-10 23:34:25
哎,不多说 都是忽悠草根的
顶: 0踩: 0 回复
10楼内涵图  2014-06-04 17:28:11
累觉不爱
顶: 0踩: 0 回复
11楼高清图片  2014-02-05 19:37:13
都洗洗上班吧
顶: 0踩: 0 回复
12楼东北仪器网  2013-12-02 16:01:33
城市在进步

顶: 0踩: 0 回复
13楼张春豹的博客  2013-11-10 00:29:03
有wifi了不假,是移动的,想上网还得花钱
顶: 0踩: 0 回复
14楼PHNIX特种  2012-04-21 14:30:05
非常好,城建很重要,但是我们相应的提升了就好了
顶: 0踩: 0 回复
15楼品牌家纺加盟  2012-04-20 14:36:30
很不错哦,但是提高公民的素质才是根本。
顶: 0踩: 0 回复
16楼短信群發  2012-04-20 11:33:12
大城市就是好。
顶: 0踩: 0 回复
17楼塑料网套  2015-11-04 19:25:32
原创不好弄啊,不如采集点文章修改一下,变成伪原创
顶: 0踩: 0 回复
18楼告白驿站  2015-08-18 15:18:29
多对多的
顶: 0踩: 0 回复
19楼盗墓笔记  2015-07-19 11:04:08
百度你不要装清高了好吗????
就拿小说来说,所有的小说贴吧都会第一时间盗版正版网站的小说文章,百度你不是一直睁一只眼闭一只眼吗,我觉得百度是两着眼都睁着在放纵盗版。
然后以盗版之名封杀其他盗版网站,但是hao123小说又把流量导向另外一些小说盗版网站,我怀疑那些小说盗版网站,直接就是百度自己的。
国内巨头都是流氓,是你们带坏了互联网吧,还在装卫道士。婊·子还立牌坊,装清纯,我只能说,恶心。
顶: 0踩: 0 回复
20楼seo博客  2015-07-17 11:04:03
确实是这样!!!
顶: 0踩: 0 回复
21楼天天养生堂  2015-07-15 14:03:13
有价值就行 不在乎是否原创 只要能给访问这优质的精准内容 那就够了
顶: 0踩: 0 回复
22楼变频器  2015-07-09 19:46:33
时不时更新原创的文章,没多少效果!
顶: 0踩: 0 回复
23楼七星辅助  2015-07-08 12:56:17
原创真的可以判断吗? 数据量不可谓不大啊
顶: 0踩: 0 回复
24楼昆明买菜网  2015-06-06 09:19:13
我也很好奇这个问题,我发现我采集的1000文章只收录10篇。但是我手动添加的文章5篇,就收录1篇。而且手动的也是网上copy过来的!NBA啊!
顶: 0踩: 0 回复
25楼雨盟赚钱网  2015-06-05 09:54:38
我每天都更新原创的文章,等收录即可
顶: 0踩: 0 回复
26楼群贤网  2015-05-05 19:12:16
这个很有帮助
顶: 0踩: 0 回复
27楼地盘  2015-04-25 13:31:32
最近打算做个作文站呢 内容当然都是采集 靠聚合页不知道可以不可以?还有这个站的域名使用的是主站的二级域名这样会不会影响到主站?
顶: 0踩: 0 回复
28楼金牌猫博客  2015-03-23 10:33:15
问君能有几多愁。。。恰是网站没流量。
顶: 0踩: 0 回复
29楼小小鱼苗  2015-02-04 13:45:55
看了半天,好像没啥用。。。。。。
顶: 0踩: 0 回复
30楼深圳竞价托管  2015-01-10 11:07:07
一般原创文章一天要是写好几篇的话,实在有点难度,把一篇文章,在原有的基础上加上自己的一些观点,这是否是一篇好的伪源创文章了
顶: 0踩: 0 回复
31楼飞扬画材  2014-12-16 11:37:44
好,油画内框批发
顶: 0踩: 0 回复
32楼白看一遍  2014-11-19 22:00:03
松松 我的网站是rqcxhg.com 能收录下吗?或者帮我看看问题
顶: 0踩: 0 回复
33楼经典台词大全  2014-07-03 01:23:12
有价值就行 不在乎是否原创 只要能给访问这优质的精准内容 那就够了
顶: 0踩: 0 回复
34楼女包货源  2014-01-16 10:02:26
以后的文章还是走向原创滴轨迹,跟紧搜索引擎的变化步调
顶: 0踩: 0 回复
35楼内涵图  2014-01-04 02:57:32
以后做站很难了。seo优化也增加难度了
顶: 0踩: 0 回复
36楼面膜网  2013-10-30 11:26:20
汉字的自由组合而已
顶: 0踩: 0 回复
37楼面膜网  2013-10-30 11:25:07
说的很对
顶: 0踩: 0 回复
38楼男性保健品  2013-10-25 22:20:49
以后做站很难了。seo优化也增加难度了
顶: 0踩: 0 回复
39楼母婴用品  2013-10-06 10:01:18
原创真的可以判断吗? 数据量不可谓不大啊
顶: 0踩: 0 回复
40楼海淘Hai360  2013-09-07 14:15:45
对待新站的算法应该在权重上给例外的考量,相当于考察期,否则新站即使再多原创也只有哭的份儿,等媳妇儿熬成婆连米汤都不剩了估计
顶: 0踩: 0 回复
41楼内蒙百度推广  2013-07-30 20:21:32
伪原创,不能小时,除非鼓励转载,并且给予转载者原文权重,而原文权重则增加更多!
顶: 0踩: 0 回复
42楼性生活  2013-06-24 11:42:24
度娘商业化的味道太浓了,关键词都被购买了。
顶: 0踩: 0 回复
43楼玉环德工  2013-06-21 15:28:25
原创是好,但是不一定原创的东西就是好的
顶: 0踩: 0 回复
44楼挽回爱情  2013-05-28 17:47:23
难道所有的文章都著名原创,或者都亲自写吗?
顶: 0踩: 0 回复
45楼时尚淘店1号  2013-05-18 14:44:19
原创是好,但每隔几几天写一篇好的软文还是比较难
顶: 0踩: 0 回复
46楼爱福莱  2013-05-18 14:06:32
数字化降低了传播成本,工具化降低了采集成本,机器采集行为混淆内容来源降低内容质量。
顶: 0踩: 0 回复
47楼汪棒棒  2013-05-18 11:42:06
没什么意义的文章,主要内容是原创很重要,我们会努力识别原创内容。真正的识别原创内容的方法讲的很笼统,基本没有。说实话百度也是没有办法,很无奈。
顶: 0踩: 0 回复
48楼瘊子治疗网  2013-05-18 09:42:05
以后该怎么做呢?绝对的原创是没时间的啊
顶: 0踩: 0 回复
49楼龙三公子  2013-05-17 22:47:04
原创不原创,就算你是原创,没人看也不如一篇伪原创或采集。
顶: 0踩: 0 回复
50楼爱小志网赚博客  2013-05-17 21:45:41
百度搜索结果现在太差了!
顶: 0踩: 0 回复
51楼郭博岳  2013-05-17 15:34:12
支持原创,支持百度的做法
顶: 0踩: 0 回复
52楼水热反应釜  2013-05-17 15:20:07
搜索引擎判断原创难度太大,即使你原创了,有经验的SEOer还是能给你伪原创出质量不低的原创来。
顶: 0踩: 0 回复
53楼双层玻璃反应釜  2013-05-17 15:17:16
网络是公开透明的,判断原创与否的难度实在太大,即使百度不断的更新算法,也无法保证能够百分百判断文章的原创性。
顶: 0踩: 0 回复
54楼TWAIN扫描识别  2013-05-17 14:01:08
你们感受一下
这个说法出处是哪里来着??想不起来了,谁提醒我一下
顶: 0踩: 0 回复
55楼点餐机  2013-05-17 11:23:51
这样到最后,岂不是很是会出错啊
顶: 0踩: 0 回复
56楼漯河seo  2013-05-17 11:06:24
seo的工作越来越难了!
顶: 0踩: 0 回复
57楼制砂机设备  2013-05-17 10:59:20
现状中就有很多模仿企业,某个企业出现A产品,另一个企业紧接着出现类A产品。跟着别人屁股后面学。将别人的技术学到手了,但别人怎么创造技术的思维却没学会。比如腾讯。就是跟随策略。
顶: 0踩: 0 回复
58楼制砂机设备  2013-05-17 10:55:16
原创度高的文章和有价值性的文章该怎么判断?凭发布作者,发布时间,评论内容,链接个数,转载个数来判断原创性。是不是忒草率?
顶: 0踩: 0 回复
59楼四川徒步网  2013-05-17 10:54:06
支持原创,鼓励原创内容,为原创作者、原创站点提供合理的排序和流量。
顶: 0踩: 0 回复
60楼小刀博客  2013-05-17 10:26:45
这是一场战斗
顶: 0踩: 0 回复
61楼程志昂  2013-05-17 10:18:16
说一套,做一套。。
顶: 0踩: 0 回复
62楼声卡驱动器官方下载  2013-05-17 10:02:03
估计要有人被坑。
顶: 0踩: 0 回复
63楼淘作文  2013-05-17 09:54:30
百度构想的很好,不过实际的效果会差强人意,还会有一批网站跟着倒霉!
顶: 0踩: 0 回复
64楼墙贴好不好  2013-05-17 09:53:52
怎么和互联网寡头玩呢
顶: 0踩: 0 回复
65楼王宝臣  2013-05-17 09:21:03
每一次创新……都是一个挑战,也是一种尝试!创新很难,因为面临的各种情况太多,但是如果创新成功,也许就是质的飞跃!身为中文搜索引擎的老大哥……百度的责任是重大的!宝臣觉得,对于我们广大站长朋友来说,如果起源算法实施成功,那么我们以往的一些方式,真的也需要更新了!
顶: 0踩: 0 回复
66楼deleteblank  2013-05-17 09:12:48
百度识别原创,估计还将是个漫长的过程。譬如说吧,我的是个新站,虽然内容都是原创的,但都还没被百度收录,更不用说排名了...而那些采集我文章内容的站点都排在前面,这也是没办法的事情,毕竟是个新站~
顶: 0踩: 0 回复
67楼汽车信息网  2013-05-17 08:58:28
不采集哪有那么多东西写,写死也没什么发展
顶: 0踩: 0 回复
68楼PHP二次开发  2013-05-17 08:51:42
感觉都是空话,很难实现,或者说对于我们小站长而言,没有多大的可实施性!
顶: 0踩: 0 回复
69楼献县嘉德除尘设备  2013-05-17 06:51:16
百度只是给你一个发展趋势,适者生存
顶: 0踩: 0 回复
70楼虚拟主机服务  2013-05-16 23:50:43
支持原创
顶: 0踩: 0 回复
71楼弯柚  2013-05-16 22:49:11
忘了说,搜索引擎本身就是一个大机器人,无时不刻不再互联网采集吸血,用大机器去判别小机器人,大机器人去吃小机器人,这是什么逻辑,唉,世间事大抵如此
顶: 0踩: 0 回复
72楼弯柚  2013-05-16 22:42:20
介绍的很美好,其实百度在搜索引擎算法、相似度、精准度算法方面还处于蹒跚学步阶段,哪一天百度能把自家的服务也放到自然搜索结果页面而不是提高优先级就算学步成功了,所谓的海量数据、机器学习、人工智能,在我国一直是老口号,从未真正高效实现起来,哪天像Google有那么多gfs、mapreduce等等大数据处理论文贡献出来,百度才算真正站起来了,我不是百度人
顶: 0踩: 0 回复
73楼双色球机选  2013-05-16 22:03:36
原创坚持下去难啊
顶: 0踩: 0 回复
74楼卢松松  2013-05-16 21:30:18
没办法,挨着。
即使星火计划出来了,如果你的是新站一样白搭
顶: 0踩: 0 回复
75楼恩典图片  2013-05-16 21:23:53
其实看了半天都不知道,何为高质量的原创,但是新站的原创内容又如何保证,白的星火计划出来了,我都打算做一个高质量的纯原创的分享网站,不知道做不做的起来,或者被人小偷了,采集了,做了镜像网站,该怎么办呢?
顶: 0踩: 0 回复
76楼C语言  2013-05-16 20:57:42
期望百度在原创识别与原创保护上做的更好,鄙视全是采集没有营养的垃圾站
顶: 0踩: 0 回复
77楼罗宾屋  2013-05-16 20:53:30
想打击伪原创,网上工作者的素质培养应该也是一个重点.如果大家把原创像信用卡信誉一样重视,问题是不是会迎刃而解?
顶: 0踩: 0 回复
78楼购社区  2013-05-16 20:47:49
哎,以后做站更难了。大家多多互踩
顶: 0踩: 0 回复
79楼IT博客  2013-05-16 20:38:43
那这样说来以后伪原创是不是更难了?
顶: 0踩: 0 回复
80楼聚龙  2013-05-16 20:30:20
为了排名和利润去原创。强制性的原创其实跟伪原创一样没有可读性。
顶: 0踩: 0 回复