-
前两周简要地给大家介绍了搜索抓取系统工作原理,根据该工作原理今天简要介绍一下如何建立网站是符合搜索引擎抓取系统习惯的。
1、简单明了的网站结构
Spider抓取相当于对web这个有向图进行遍历,那么一个简单明了结构层次分明的网站肯定是它所喜欢的,并尽量保证spider的可读性。
(1)树型结构最优的结构即“首页—频道—详情页”;
(2)扁平首页到详情页的层次尽量少,既对抓取友好又可以很好的传递权重。
(3)网状保证每个页面都至少有一个文本链接指向,可以使网站尽可能全面的被抓取收录,内链建设同样对排序能够产生积极作用。
(4)导航为每个页面加一个导航方便用户知晓所在路径。
(5)子域与目录的选择相信有大批的站长对此有疑问,在我们看来,当内容较少并且内容相关度较高时建议以目录形式来实现,有利于权重的继承与收敛;当内容量较多并且与主站相关度略差时建议再以子域的形式来实现。
2、简洁美观的url规则
(1)唯一性网站中同一内容页只与唯一一个url相对应,过多形式的url将分散该页面的权重,并且目标url在系统中有被滤重的风险;
(2)简洁性动态参数尽量少,保证url尽量短;
(3)美观性使得用户及机器能够通过url即可判断出页面内容的主旨;
我们推荐如下形式的url:url尽量短且易读使得用户能够快速理解,例如使用拼音作为目录名称;同一内容在系统中只产生唯一的url与之对应,去掉无意义的参数;如果无法保证url的唯一性,尽量使不同形式的url301到目标url;防止用户输错的备用域名301至主域名。
3、其他注意事项
(1)不要忽略倒霉的robots文件,默认情况下部分系统robots是封禁搜索引擎抓取的,当网站建立后及时查看并书写合适的robots文件,网站日常维护过程中也要注意定期检查;
(2)建立网站sitemap文件、死链文件,并及时通过百度站长平台进行提交;
(3)部分电商网站存在地域跳转问题,有货无货建议统一做成一个页面,在页面中标识有无货即可,不要此地区无货即返回一个无效页面,由于spider出口的有限性将造成正常页面无法收录。
(4)合理利用站长平台提供的robots、sitemap、索引量、抓取压力、死链提交、网站改版等工具。
文章来源:百度站长平台
顶: 0 踩: 0来源:卢松松博客 QQ/微信:13340454
百度官方:建立符合搜索抓取习惯的网站
| 阅读量 | 分类: 好文分享 | 作者: 转载大师
相关文章阅读更多:百度 搜索引擎
- 2024-11-13 如此恶性循环,屌丝创业者都不跟百度玩了
- 2024-09-27 别人都在百度云智大会上吹,我就说点别的……
- 2024-09-14 百度起诉知名站长工具5118
- 2024-07-27 萝卜快跑可能要凉凉了!
- 2024-07-24 萝卜快跑背后:网约车司机不应成为所有人的就业底线
- 2024-07-22 当年的百度贴吧是最好用的社交平台,可惜了
- 2024-07-18 这位少年说长大开AI公司,收购百度
- 2024-07-11 百度将成为中国最大的出租车运营公司
- 2024-07-01 网传江苏本地最大的百度总代倒闭
- 2024-06-07 谁能赢?阿里的通义 VS 百度的文心
- 2024-06-05 百度最终还是错过了最重要的风口
- 2024-05-10 璩静是为了薅百度羊毛
- 2024-05-07 为了老板李彦宏,百度公关豁出去了
- 2024-04-17 李总别拉踩AI同行了
- 2021-09-08凡是在卢松松博客投稿的作者都有机会得到IT类图书哦!
发表感想加入微信群
囧事
礼品
企信通
囧
猫尚网
衡水博利工程橡胶
慢点博客
STTC
数控深孔钻
深圳网站建设
网赚客
逆袭网赚
虚拟主机服务商
面子至上
声卡驱动器官方下载
实实在在赚钱课程
心维随笔
海滨博客
诺伊网
===================================
继续埋头苦干ing。。。。。。
香港新世界机房