卢松松博客

一个纯采集站长的SEO、采集、运维总结

 人参与 | 时间:2016年12月02日 07:24

我是一个纯采集站长,下面的这些总结,有些是关于关于SEO,有些是关于采集和运维,都是很基础的个人见解,仅作分享,请自辨好坏是非,实践出真知。

一个纯采集站长的SEO、采集、运维总结 SEO推广

原创好还是采集好?

当然是原创好,因为百度是这么说的,谁叫人家是裁判。

为什么我原创了很多文章,还是不收录?收录了没排名?

一个搜索引擎,它的核心价值是要为用户提供他/她最需要的结果。搜索引擎是有统计网民需求的,对于网民需求量小或者几乎没有需求的内容,即使你是原创也可能被搜索引擎忽略,因为它不想浪费资源在无意义的内容上。

对网民需求量大的内容,收录应该会比较多、比较快,但是,正因为收录多,即使你是原创,也可能很难挤进排名。

搜索引擎统计网民需求以什么来标识?

关键词。每一个人搜索一个关键词时,就表明他/她对这个词相关的内容有需求。而且,使用搜索引擎的人,通常是有问答需求、检索查询需求。当然搜索引擎内部肯定有非常庞大的分析系统,对这些需求进行精确的定位,详见百度指数。比如搜索的关键词是“手机”,很有可能是想要买手机或者查某款的价格,也可能只是想要下载漂亮的壁纸。但是,如果是想要壁纸,就会有更精确的关键词“手机壁纸”,以下拉框或者相关搜索的形式呈现出来。

既然原创好,为什么要采集?

1. 虽然原创好,但只要方法适当,采集的效果并不会比原创差多少,甚至比没掌握到方法的那些原创好很多。

2. 精力有限,原创很难保证长期大量更新,如果请个编辑,投入产出比可能是负数。

市面上采集器那么多,应该用哪个好?

每个采集器都有它的独特之处,所谓存在即合理。请根据自己的需求来选择即可。我的采集器是自己开发的,开发的过程中考虑了以下几方面,使用其他采集器的也可作参考:

1. 直接提供已分类的海量关键词,这些关键词都是百度已经统计的有网民需求的词(有百度指数),或者是这些词的长尾词,来自百度下拉框或相关搜索。

2. 直接按关键词采集,智能分析网页正文进行抓取,不需要自己写采集规则。

3. 抓取到的正文经过规范的标签清理,段落全部以

标签呈现,乱码一律去除。

4. 根据采集到的内容自动配图,图片一定是与该内容相关度非常高的。以这种方式代替伪原创,既不影响可读性,又使文章图文并茂,做到比原创所提供的信息更丰富。

5. 正文内容中的关键词自动加粗,也可自定义要插入的关键词。但没有做句子重排、段落重排等影响可读性的所谓“伪原创”功能。

6. 可直接使用关键词和其相关词组合作为标题,也可抓取目标网页标题。

7. 可进行微信文章采集。

8. 不用触发或者挂机。

9. 集成百度站长平台主动推送,加快收录。

不同的网站程序,比如织梦、WordPress、dz、zblog、帝国cms或者其他,对SEO有什么影响?

理论上没有影响。因为搜索引擎并不知道你是什么程序,或者它可以通过一些规则识别出来,也不可能因为程序本身的不同而影响它的判断。

那什么会影响SEO呢?答案是模板。因为基本上这些程序都有模板机制,同样程序可以输出不同的页面,不同的程序也可以输出同样的页面,这就是模板。模板确定之后,你的每一个页面就按照这个框架来输出,也就是整个html结构已经确定。而这些html,正是搜索引擎要重点关注的,它得从这些html中得到它想要的信息。因此,一套好的模板非常重要。

模板设计应该注意哪些细节?

1. 权重结构顺序。整个页面的html中(注意是html,而不是显示出来的版面),越靠前的位置,权重越高。由此引申出来,“title”、keyword、description三个标签,因为最靠前,权重最高。其次通常是导航,也是基本上是最靠上的,权重也非常高。再次就是文章标题和正文。这是根据html的前后来排序的。

2. 因为搜索引擎首先要遵循W3C标准,所以,W3C定义的一些本来就是用来表示重要信息的标签,权重自然就高,比如,特别是h1,用来表示当前页面最重要的信息,一般每个页面只能有一个,其权重估计与title相当,也通常是用来放当前页面的标题,当然也有为了提高首页权重,用h1来放置logo或首页链接,都是可以的。另外还有em、strong这样的标签,用来表示强调,一般认为strong权重高于标签,同样也是加粗作用,但我们认为从SEO的角度看是没有权重加强的。

3. css或者js代码对搜索引擎来说通常是无意义的,尽量使用单独的文件来存放,或者在允许的情况下放到html尾部去

网站结构规划应该注意哪些问题?

1. URL设计。URL也是可以包含关键词的,比如你的网站是关于电脑的,你的URL中可以包含“PC”,因为它在搜索引擎眼里通常是“电脑”的同义词。URL不要太长,层次尽量不要超过4层,这个就点到为止。

2. 栏目设计。栏目通常是与导航相关联的,设计时应该考虑网站整体的主题,用户可能会对哪些内容感兴趣,栏目名称最好是网站的几个主关键词,这样也方便利用导航的权重。

3. 关键词布局。理论上每一个内容页都应该有它的核心关键词,同一个栏目下的文章,尽可能围绕栏目关键词展开。一个简单粗暴的办法就是直接用栏目关键词的长尾词。

动态、伪静态、静态,这三者哪个好?

这个不能一概而论,推荐使用伪静态或静态。这三者的区别,是是否生成静态文件,以及URL格式是否动态。生成静态文件,本质上是为了加快访问速度,减少数据库查询,但会不断增加占用空间;伪静态只是通过URL重写修改URL,实际上还是每次都要经过程序运算、查询数据库再输出页面,对加快访问速度完全无效。动态与伪静态的差异只在于URL,带问号加参数。

所以关注两个点就好:网站打开速度是否够快?你是否需要节约服务器空间?

不同的网站程序,数据库操作的效率可能不同。一般来讲,内容页数量在1万以内的,页面打开速度都是比较快的,数据量更大一些,达到5万、十万甚至更多,通常就要考虑静态化了。

有哪些途径改善访问速度?

1. 上面已经说到的静态化。

2. 通常很多网站模板中都有随机调用文章或者类似的版块,事实上对数据库来说,随机是一项比较重的负担,在模板中应该尽量减少随机文章的调用。如果不可避免,可以考虑从数据库上优化,对有索引的字段排序通常比没有索引要快很多。

3. 将图片、js、css等不经常修改的文件,放到专用的静态服务器上,多个js、或者多个css能合并的尽量合并到一个文件,减少http连接次数。

4. 使用各类云加速产品。对普通网站来说,免费的百度云加速或者360的云加速都还可以。

文章比较多,网站已经开启静态,但是每次全站更新都要花很长时间怎么办?

我的做法是使用缓存机制,这里只提供一个思路,可能需要自己二次开发。

网站设定为伪静态,每一个请求到达时,程序检查是否存在对应的缓存html文件,如果该文件的生成时间是多少小时或几天以前,我们判定它需要更新,这时候执行正常流程,程序查询数据库,生成html后,写入到缓存文件,再输出到客户端。

当下一次访问到达时,比如1分钟以后又来一个访问相同页面,再次检查缓存文件时间。从时间上可以判断文件非常新,完全不用更新,则直接读取文件内容输出到客户端。这样每个页面都可以实现自动生成,也只有第一个访客会感受到速度慢,后面的访客访问时都相当于是静态访问,速度是非常快的。

如果是独立服务器,还可以考虑自动检测服务器负载,如果负载本来就高,那就算判断出来需要更新,也暂时不更新,改为直接输出。

图片是引用远程网址好还是放在自己服务器好?

这个也是各有优劣。引用远程网址,可以节约自己的带宽,但很可能会因为对方服务器缓慢、或删除资源、或防盗链,图片无法显示。如果下载到自己服务器,当然一切都自己掌控,但是图片会非常占用空间,总体上可能比生成静态所占的空间更大,而且如果访问量大,图片是最吃带宽的。

网站内链应该怎样优化?

内链是百度官方推荐的优化手段之一,所以这是一定要做的。通常表现的形式是正文中出现某个关键词,给这个关键词加上一个链接,指向另一个正好是这个关键词相关内容的页面。因此就诞生了一些所谓的优化手法,强行在正文中插入一些关键词和链接,以此进行类似互推的操作。还有的为了提高首页权重,到处都放上网站名称,并做上首页链接,以为这样可以提高目标页面的权重。但是这些很可能都是适得其反,因为搜索引擎会统计每个链接的点击率。如果放在醒目位置点击却很少的链接,有可能会判断为作弊。所以,请只在正文中本来就有的关键词上做内链,就可以了。

段落重排、句子重排、同义词替换这些伪原创手法到底好不好?

不好。因为搜索引擎已经智能,已经不是简单的数据库检索,它会自然语义分析(详情请搜索“NLP”),凡是语义解析比较困难的句子或者段落,它是可以判断为可读性差的,所以我认为这些“伪原创”可能是自作聪明。

评论模块基本上没有人用,该要还是不要?

要。评论模块最头疼是事情是垃圾评论,通常真正发言的访客很少,垃圾评论一大堆,整天和营销软件斗智斗勇。这里提供一个我已经实现的方案,对收录可能有一定帮助(没有依据的,只是猜测):

保留评论框、但禁止评论。所有评论由自己的网站程序生成。前面提到搜索引擎会自然语义分析,其中有一项重要的能力,就是情感判断。搜索引擎会计算每条评论的情感值,是positive(积极)还是negative(消极),具体倾向是10%还是90%。如果评论内容表达的是积极情感,则可以给你的正文加分,反之则减分。至于怎样自动生成积极的评论,就八仙过海各显神通吧。

这是在网络社交发展起来后的必然趋势,用这种方式来反映一个页面的用户体验度。同理还有分享、点赞等,原理类似。

绿萝卜算法之后,外链到底还有没有用?

有用。参见搜索引擎三定律之相关性定律。既然是定律,就不会改变。谁的内容被引用得多,谁就是权威。在主动推送出现之前,外链应该算是蜘蛛认识一个页面内容的第一渠道。

外链一定要锚文本或者裸链吗?

不是。搜索引擎肩负重任,要努力发现真正有价值的东西,排除那些没价值的东西。所以有可能你直接提交的链接没收录,在别人地方随便发个纯文本网址,被它发现了,还计算了加分。

除了锚文本和裸链,还可以用关键词+网址的形式发纯文本。这样在网址前面的那个关键词是会自动与该网址关联的。

还有,有些链接虽然加了nofollow属性,但是在百度计算外链的时候,还是会计算的。

收录和索引到底什么关系?

收录表示蜘蛛来抓取过、分析过。索引表示蜘蛛分析之后,认为内容有一定价值。只有进入索引的内容才有可能出现在搜索结果中,展现给用户。也就是说只有索引的内容才有机会带来流量。

作者:古井 个人QQ:676010632 微信公众号:优采云(ucaiyun_com)

顶: 15踩: 5

来源:,欢迎分享,(QQ/微信:13340454)

必填

选填

选填

◎已有 70 人评论,微信:QQ13340454

1楼企业宣传片策划  2016-12-05 14:11:29
总结的比较多
顶: 0踩: 0 回复
2楼武汉SEO  2016-12-05 13:52:05
赞同,有些加了nofollow标签的外链,也同样有外链的效果。
顶: 0踩: 0 回复
3楼低投入高收益投资理财  2016-12-05 11:30:57
然而并没有什么卵用
顶: 0踩: 0 回复
4楼耀磊数据.服务器租用  2016-12-05 11:06:42
乍一看,我还真看不懂,隔行如隔山。
顶: 0踩: 0 回复
5楼成都seo  2016-12-05 10:28:23
个人站长要想做大还是采集比较靠谱
顶: 0踩: 0 回复
6楼惠喵  2016-12-05 09:41:12
还是手工好。
顶: 0踩: 0 回复
7楼北京大兴渣土清运公司  2016-12-04 22:09:58
采集的在修改下,,
顶: 0踩: 0 回复
8楼设计路上  2016-12-04 15:55:22
然而并没有什么卵用,采集的不容易收录
顶: 0踩: 0 回复
9楼个人简历模板  2016-12-04 11:44:30
然而并没有什么卵用
顶: 0踩: 0 回复
10楼阅读生活  2016-12-04 11:43:14
这篇是干货啊,学到了很多!
顶: 0踩: 0 回复
11楼顾亚恒搜狐  2016-12-04 09:42:22
然而并没有什么卵用,采集的不容易收录
顶: 0踩: 0 回复
12楼湖南美术高考网  2016-12-03 19:33:48
目前还是有很多做站群的站长们都是采集的吧?
顶: 0踩: 0 回复
13楼zippo官网  2016-12-03 18:07:25
采集站只有大神玩得转,小站长还是老老实实的做原创吧。
顶: 1踩: 0 回复
14楼大圣博客  2016-12-03 17:32:18
逆向思维SEO,值得做SEO的好好学习。
顶: 1踩: 0 回复
15楼握兰网  2016-12-03 16:04:49
说的有道理,前提是针对那些迫切需要SEO的站或站长来说吧
顶: 0踩: 0 回复
16楼工控资料窝  2016-12-03 15:11:53
中肯的很,就是难难的
顶: 0踩: 0 回复
17楼艺考培训  2016-12-03 14:33:40
乍一眼看上去,有一点小小的收获,看第二遍,有种豁然贯通的感觉。
顶: 0踩: 0 回复
18楼喷砂机  2016-12-03 12:37:23
这文章还是有点儿意思的!
顶: 0踩: 0 回复
19楼33游戏网  2016-12-03 12:15:01
小站就是靠采集的,哪有空写那么多原创文章啊
顶: 0踩: 0 回复
20楼9mzx.com  2016-12-03 10:15:55
还是要原创才能持久啊
顶: 0踩: 0 回复
21楼悟空说  2016-12-03 09:41:54
不错,文章总结的很全面,对于新手选择是个很好的参考。我做的纯采集站,目前权重已5,其实原创不原创倒真的不是十分必要,做这个最重要的两点:1、用户需求 2、用户体验。说到用户需求,这关系到网站的定位问题。用户体验这个就不用讲了。如果想做采集站,可以找我交流。经营几年的采集站经验,也算颇有心得。
顶: 1踩: 0 回复
22楼沟通者  2016-12-03 08:43:18
这是一个真正的高手 服了
顶: 0踩: 1 回复
23楼宝妈必看  2016-12-02 22:57:30
我的就是这样的情况,原创,收录不好,没有排名,大神们帮我看看
顶: 0踩: 0 回复
24楼敦化信息网  2016-12-02 22:31:30
比鸡汤文好
顶: 1踩: 0 回复
24楼任玩小游戏  2016-12-03 12:16:25
恩,百度说,能对用户好就是好文章,管你黑猫白猫
顶: 0踩: 0 回复
25楼金途网  2016-12-02 21:13:00
什么,情况啊!
顶: 0踩: 0 回复
26楼韩国代购微信号  2016-12-02 21:11:51
这个不停的更新,优质内容还需要推广。
顶: 0踩: 0 回复
27楼金途网  2016-12-02 21:09:21
纠结中,来取经
顶: 0踩: 0 回复
28楼28客栈  2016-12-02 20:31:39
想想之前的站群就知道了,有没有用只是个人怎么用而已,嘎嘎
顶: 0踩: 0 回复
29楼电脑配置网  2016-12-02 20:25:39
文章 还不错 有实质的东西
顶: 0踩: 0 回复
30楼大连半永久化妆培训  2016-12-02 19:59:10
这个,现在一直觉得原创未必就是好的,伪原创不一定就不好,现在重复的信息多了,有价值才是重要的。
顶: 0踩: 0 回复
31楼小小蚂蚁博客  2016-12-02 18:59:17
好文,转了!
顶: 0踩: 0 回复
32楼电脑配置网  2016-12-02 18:58:33
关于评论,向lusongsong也是开放的,大站都基本开放
垃圾评论者也是访客,如果关闭,垃圾少了,真实访客也少了,交互也少了
如果别人想评论,还是要给人评论,如让垃圾太多就行了
顶: 0踩: 0 回复
33楼华夏名网  2016-12-02 18:48:29
我有个客户做动漫采集的,每天IP 2万多 牛得很
顶: 0踩: 0 回复
33楼松松博小编  2016-12-02 19:58:46
确实有很多采集站还是活的很滋润
顶: 0踩: 0 回复
34楼台灣成語網  2016-12-02 18:42:34
火車頭還是不錯的。。樓主是技術達人。。。
顶: 0踩: 0 回复
35楼头盔  2016-12-02 18:33:57
分享的很好 学习了 挺好的
顶: 0踩: 0 回复
36楼微信群控系统  2016-12-02 18:21:16
这才有用····
顶: 0踩: 0 回复
37楼开拓者博客  2016-12-02 17:51:03
自从首页加了视频,看到流量下降了...
顶: 0踩: 0 回复
38楼网络游戏  2016-12-02 17:30:10
比鸡汤文要好很多
顶: 0踩: 0 回复
39楼韩少资源网  2016-12-02 17:28:17
比较喜欢这种文章,说的非常好!
顶: 0踩: 0 回复
40楼赵斌自媒体  2016-12-02 16:38:50
这篇文章 还不错 有实质的东西
顶: 1踩: 0 回复
41楼内涵吧  2016-12-02 15:49:29
多发点这种类型的 比鸡汤文要好很多
顶: 1踩: 0 回复
42楼淘小众  2016-12-02 15:42:43
到别人博客去逛,总会发现你留言的影子,莫非你每天都会去看别人的博客去留言吗?有这么多时间和精力?比较好奇
顶: 0踩: 0 回复
42楼卢松松  2016-12-02 17:31:15
时间都是挤出来的。
简单的事情重复做,就能成功
顶: 2踩: 0 回复
43楼开船猫博客  2016-12-02 15:38:46
评论好的内容怎么不显示了?
顶: 0踩: 1 回复
43楼卢松松  2016-12-02 17:30:46
本站有缓存,两小时左右就能看到
顶: 0踩: 0 回复
44楼手机网站建设  2016-12-02 15:14:32
图片还是上传到自己的服务器好,远程网址原图删除就无法显示了
顶: 0踩: 0 回复
45楼开船猫博客  2016-12-02 14:58:07
思路很不错,值得我们去学习
顶: 1踩: 0 回复
46楼低投入高收益投资理财  2016-12-02 14:50:29
垃圾站也有春天
顶: 0踩: 0 回复
47楼胡杨  2016-12-02 13:34:07
术业有专攻,采集站也能做的如此专注。
顶: 0踩: 0 回复
48楼宜品商城  2016-12-02 13:26:12
松松以后就要分享一些专业类的文章和案例性质的,不要再发一些鸡汤了!
顶: 3踩: 0 回复
48楼卢松松  2016-12-02 14:43:46
哦,菜要丰富点,才能营养均衡!
顶: 1踩: 0 回复
49楼手机蛙排名软件  2016-12-02 13:14:28
偶尔复制一篇文章没关系,采集的很多,偶尔原创就没用了
顶: 0踩: 0 回复
50楼九值网络  2016-12-02 13:05:25
说的很好,还要努力学习中
顶: 0踩: 0 回复
51楼dudo  2016-12-02 12:51:58
居然有干货?这不像卢松松博客的风格啊,卢松松博客都是月入1000万,日点击1个亿的模式,你这上干货的文章是怎么通过审核的?
顶: 7踩: 0 回复
51楼卢松松  2016-12-02 17:31:43
黑的漂亮
顶: 0踩: 1 回复
52楼0元购买1200M智能双频无线路由器  2016-12-02 12:02:03
垃圾站也有春天
顶: 0踩: 0 回复
53楼网赚博客  2016-12-02 11:44:15
不错,写的非常详细了。有心人看了必然能学习到不少知识,有时候不是别人不给于帮助,关键是看自己是否有努力过。凯恩来访~
顶: 0踩: 0 回复
54楼java商城系统  2016-12-02 11:24:42
除了锚文本和裸链,还可以用关键词+网址的形式发纯文本。这样在网址前面的那个关键词是会自动与该网址关联的。
这一点竟然误打误撞做对了
每天文章发布是最头痛的事情,一直想要不要采集要不要采集
看完好像 我所谓伪原创真的不太管用
顶: 0踩: 0 回复
54楼松松博客小编  2016-12-02 20:02:33
原创有原创的好
顶: 0踩: 0 回复
55楼解旭阳  2016-12-02 11:21:45
采集器用的那个?帝国cms后门哪里有教程?解除限制教程就行了。
顶: 0踩: 0 回复
56楼深圳装修公司  2016-12-02 11:21:10
采集器分享一下呗
顶: 0踩: 0 回复
57楼56看看  2016-12-02 11:15:55
采集不一定垃圾~~~
顶: 0踩: 0 回复
58楼网赚博客  2016-12-02 11:15:42
评论还是要有的,没评论功能根本就没用户体验
顶: 0踩: 0 回复
59楼夏日博客  2016-12-02 11:11:36
采集别人的内容不觉得很可恶麽。
顶: 0踩: 0 回复
60楼逗图百科  2016-12-02 10:32:20
小白表示好像有点深奥 不太懂
顶: 0踩: 0 回复
61楼点睛阁珠宝  2016-12-02 10:04:35
采集的效果并不会比原创差多少,甚至比没掌握到方法的那些原创好很多。我要反思一下了!
顶: 0踩: 0 回复
62楼新的一天  2016-12-02 09:11:19
有点深了,小白不会操作,仰望中。
顶: 0踩: 0 回复