Google搜索引擎的工作原理

| 阅读量 | 分类: 好文分享 | 作者: 转载大师 | 时间：2012年02月29日 19:12

PPCblog.com呈现给我们一幅由Jess Bachman（在WallStats.com工作）精心描绘的示意图，这张流程图展示了每天拥有3亿次点击量的Google搜索按钮背后搜索引擎在那不到1秒的响应时间内所进行的处理。这张流程图演示了在你点击Google搜索按钮后，在Google返回查询结果前那一眨眼的功夫里，Google是如何处理你的搜索请求的？这可是搜索巨人Google年赢利额高达200亿美元的杀手级应用，也是Internet首屈一指的商业和技术神话，大家肯定都想知道Google这棵摇钱树背后的秘密。

Google官方对其搜索技术的叙述

我们搜索技术的后端软件会在服务器侧触发一系列执行时间不到1秒的并行计算，Google问世前的传统搜索引擎的搜索结果严重依赖于关键词在页面上出现的频度，我们使用了200多个指标信号（其中包括我们拥有专利的PageRank页面等级加权算法）用来检查万维网的链接结构（佩奇和布林最初的想法是把万维网的链接结构用图论的有向无环图来建模）并决定网页的重要程度，我们假定一个网页的重要程度取决于别的页面对它的引用，就像学术论文中的引用指数一样，重要的论文总是会被很多其他论文引用。然后我们再根据搜索条件进行超文本匹配分析（对bot抓取的页面内容进行关键词倒排索引检索）确定跟搜索请求最相关的网页。综合最重要的网页和跟搜索请求最相关的网页两个方面，我们就能按重要程度和用户搜索请求相关程度把查询结果排序后呈现给我们的用户。

数据中心：Google用来索引世界的塔

Google的数据中心高度机密，我们能了解到的不多：

1．在美国本土有19个以上的数据中心，其余17个数据中心分布在美国以外的世界各地。

2．每个数据中心有50万平方英尺那么大，建造一个数据中心要花费约6亿美元。

3． Google数据中心是世界上最高效的设施之一，而且也非常环保，几乎没有碳排放。

4．数据中心使用50到100兆瓦的电力，由于需要冷却，通常建在便于用水的地方。

5． Google服务器安置在一个一组容得下1160台服务器的有房子那么大的标准集装箱容器中。

处理流程

1．你写博客、或在Twitter上推微博、更新站点等诸如此类往Web上添加内容的操作

2．Google bots程序（一种作为搜索引擎构件的智能代理程序）抓取你网页的title和description、keyword等内容

（1）Google爬虫沿着链接路径周游万维网，如果没有超文本路径到你的站点，你的站点将不会被索引

（2）如果你在robots.txt中设置不许索引，Google爬虫程序将不会抓取你的网页

（3）如果链接到你站点的超文本链接上有nofollow标签，Google爬虫将不会从这些链接路径周游到你的站点。

（4）Google也能通过blog软件或xml站点地图找到你的网站

（5）从PageRank越高的网站链接到你的网站的链接越多，你的网站的PageRank就越高。

（6）Google爬虫将周游所有未标注为nofollow的链接

3．一旦被Google爬虫访问到，网页几秒内就被索引了

（1）网页内容被存储在一个倒排索引中

① 网页标题和链接数据被保存在一个索引中，用于广度优先搜索

② 网页内容保存在另一个索引中，以用于检索频率不高的长尾、个性化、深度优先搜索

（2）当你用Google搜索时，你并没有在检索时时更新的万维网，而是在检索Google的缓存，Google定期更新其索引库，在Twitter实时搜索等的竞争下，Google的索引库更新周期趋短。

4．Google基于链接评估域名和网页的总体PageRank值。

5．检查网页以防止作弊行为

(1) Google的搜索质量和反垃圾信息审查和优化算法

(2) 1万多远程测试用户评价搜索结果的质量

(3) Google征请用户对有PageRank讹诈嫌疑的垃圾信息进行举报

(4) Google接到 (美国)数字千年版权法案的通知，要求Google从搜索结果中剔除涉嫌盗版的内容

6．在对页面做了损害分析后，现在每个页面都有很多用于辅助用户搜索的数据片（比如检索关键词）反向引用着它

7．用户发出搜索请求

（1）Google搜索质量工程师Patrick Riley：在大多数Google搜索中，你的搜索处于许多并行的控制过程或Google实验室的创新项目组过程中，可以说每一个查询请求都会参与一些Google的创意实验。

8．Google会用同义词匹配与你的搜索关键词语义相近的查询结果

9．生成初步的查询结果

（1）Google当然能返回成千上万数量无限的查询结果，但一般只显示不到1000条的查询结果，出于“少则得，多则惑”的考虑。（2）对查询结果做本地化处理，本土站点在查询结果中优先出现

10．对查询结果集按权威性和PageRank进行排序，重复的查询结果被剔除。

(1) Google根据关键词、广告类型、用户所处位置找出相关的被竞价拍卖的关键词广告

(2) 关键词广告必须遵守当地法律条文

① 广告业主的非法广告将被取缔

② 如果关键词的搜索流量过低或关键词广告点击量偏低，则会被自动禁用

③ 出于商业策略，像亚马逊这样的客户会给予优惠折扣。

(3) 关键词相关广告按收益潜力（对关键词进行竞价拍卖后的广告质量不断进行评估）排序

(4) 对广告业主来说广告内容一般都是固定的，但有时使用动态关键词使关键词广告与搜索关键词相关度更高

① 一些广告本身允许增加易变的附属信息，比如网站链接、电话号码、产品链接、地址等

(5) 当广告拥有了相当高的点击率，则会显示在搜索结果列表的上方，以使其更显眼。

(6) 其余的广告依序显示在相应的位置

11．对查询结果进行过滤处理

(1) 对通常的查询（比如在Google首页上发出的搜索请求），Google会把相关的专题性垂直搜索结果（比如新闻、购物、视频、书籍、地图等）也加到返回的查询结果中

(2) 个性化方面：用户访问过的网站在查询结果列表中会更靠上

(3) 大量使用锚点的网站有可能被从查询结果中删除

(4) 搜索结果集的聚簇性：如果网页被其他高PageRank的网站引用，则网页的重要性会大大提高。

(5) 趋势分析：对搜索流量爆增或有大量新闻的搜索关键词，Google会在新的查询结果中增加额外的PageRank权值。（Google有反映关键词搜索流量的Google趋势专题页面）

(6) 同一个域名下的多个网页如果具有相同的PageRank会被归为一组。

12. 最终返回给浏览器端的用户一个人性化的、布局良好的、查询结果和广告泾渭分明的有机查询结果页面。

所有这些步骤在总共不到1秒的响应时间内完成，每天3亿次的点击量给Google带来了超过200亿美元的年收入。

文章来源：honest Translate

相关阅读：
基础知识普及：百度搜索引擎的工作流程
Google图片搜索的原理
一款用于改进图片搜索效果的标注游戏
百度解构第一季 - 理解用户搜索行为

顶: 2 踩: 3

来源：卢松松博客 QQ/微信：13340454 ，转载请注明出处！

本文地址：https://lusongsong.com/info/post/102.html

发表感想加入微信群

热门跟帖

囧

节操君，你肿么了

评论来自电脑端时间:2015-12-18 02:21:38

顶: 0 踩: 0 回复

2楼

初心网赚

说的很好
直接不改

评论来自电脑端时间:2015-12-01 14:23:11

顶: 0 踩: 0 回复

3楼

果酒

原理就这么简单。最近好不容易打开一次谷歌，我就去买了违禁词，结果一注中了200元。

评论来自电脑端时间:2014-09-19 14:55:34

顶: 0 踩: 0 回复

4楼

囧

好好工作，好好写博。就是最好的优化原理。

评论来自电脑端时间:2014-01-27 16:27:18

顶: 0 踩: 0 回复

5楼卢松松

怎么你用搜狗？默认是搜狗浏览器？

跟帖来自电脑端时间:2012-03-02 22:31:50

顶: 0 踩: 0 回复

6楼

楚韵日记簿

我爱谷歌。

评论来自电脑端时间:2012-11-16 14:49:06

顶: 0 踩: 0 回复

7楼

网赚网

不怎么习惯用谷歌

评论来自电脑端时间:2012-03-03 22:24:16

顶: 0 踩: 0 回复

8楼

00

我特别喜欢google

评论来自电脑端时间:2012-03-03 19:49:30

顶: 0 踩: 0 回复

9楼

怀化SEO

看着头痛啊。。。。。。。。。。。。

评论来自电脑端时间:2012-03-03 17:02:48

顶: 0 踩: 0 回复

10楼

爱微博客

Google在中国没有数据中心

评论来自电脑端时间:2012-03-03 16:39:32

顶: 0 踩: 0 回复

11楼

吴克难的博客

呵呵，收入确实很给力哦

评论来自电脑端时间:2012-03-02 11:19:25

顶: 0 踩: 0 回复

12楼

A5网赚教程

谷歌很强大

评论来自电脑端时间:2012-03-01 20:52:23

顶: 0 踩: 1 回复

13楼

刀刀毙命

很好很强大

评论来自电脑端时间:2012-03-01 20:06:42

顶: 0 踩: 0 回复

14楼

Godaddy优惠码

几句话很难概括！

评论来自电脑端时间:2012-03-01 15:09:48

顶: 0 踩: 0 回复

15楼

seo云南

很喜欢谷歌，无论技术、服务，除了他脑袋进水，硬要当什么ZZ明星之外

评论来自电脑端时间:2012-03-01 12:07:17

顶: 0 踩: 0 回复

16楼

在线小游戏

真是一楼说的那样吗？

评论来自电脑端时间:2012-03-01 10:43:44

顶: 0 踩: 0 回复

17楼

SEO论坛

谷歌值得去研究

评论来自电脑端时间:2012-03-01 09:49:00

顶: 0 踩: 0 回复

18楼

上海SEO

了解谷歌的工作原理对我们做谷歌排名很有帮助

评论来自电脑端时间:2012-03-01 09:48:32

顶: 0 踩: 0 回复

19楼

牛奶减肥

界上最高效的设施之一，而且也非常环保，几乎没有碳排放。数据中心使用50到100兆瓦
谷歌使用这么大的电量，居然说非常环保。像美国把污染环境的产业全都转移到国外了。然后说自己很环保。说其他国家，你们污染环境了。其实自己的消耗的比谁都多。

评论来自电脑端时间:2012-03-01 09:41:40

顶: 0 踩: 0 回复

20楼

压风自救装置

nofollow的链接也可以作为反链！是不是代表并不是都不抓取？

评论来自电脑端时间:2012-03-01 09:35:35

顶: 0 踩: 0 回复

21楼

编程入门

如果我们能亲眼见到google的服务爱集装箱容器，我们会惊呆的。

评论来自电脑端时间:2012-03-01 09:31:16

顶: 0 踩: 0 回复

22楼

敏敏知音

谷歌的搜索结果就是一流准确！我依赖谷歌，除非谷歌实在是链接不上。每天都有链接不上的时候，这一点也让人生气。不是生谷歌的气，是生某些人的气！让人有fsh的心理了！真是！除了谷歌搜索我选搜狗，搜狗比较可靠些！只是有重复的搜索页面出现让人不爽外，整体是好的！搜搜的结果有百毒的影子，不喜欢！

评论来自电脑端时间:2012-03-01 09:24:02

顶: 0 踩: 0 回复

23楼

光的传人

分析得很专业啊！

评论来自电脑端时间:2012-03-01 09:12:10

顶: 0 踩: 0 回复

24楼

爱不网后花园

搜索引擎真的很强大，一秒钟处理完成搜索

评论来自电脑端时间:2012-02-29 23:38:56

顶: 0 踩: 0 回复

25楼

扒哥

基本上没看懂单纯的帮顶

评论来自电脑端时间:2012-02-29 23:10:10

顶: 0 踩: 0 回复

26楼

绞股蓝

要是做SEO这个怕是必须要看的

评论来自电脑端时间:2012-02-29 22:58:29

顶: 0 踩: 0 回复

27楼

广州电信宽带

学习了。各个搜索引擎都不同啊。

评论来自电脑端时间:2012-02-29 21:53:04

顶: 0 踩: 0 回复

28楼

安徽SEO推广者

谷歌很低调！

评论来自电脑端时间:2012-02-29 20:56:05

顶: 0 踩: 0 回复

29楼

猪头博客

谷歌啊谷歌

评论来自电脑端时间:2012-02-29 20:00:24

顶: 0 踩: 0 回复

30楼

大学生村官网

好好工作，好好写博。就是最好的优化原理。

评论来自电脑端时间:2012-02-29 19:33:50

顶: 0 踩: 0 回复

卢松松博客