搜索引擎的工作原理(搜索引擎的工作原理是什么?)-第1张

在网络黄金时代,浏览器能说是现实生活的一小部分。除此以外,浏览器经过20十多年的连绵不断,依然牢牢地占有着网络流量出口处,不得已让人感慨。

所以,提出诉讼浏览器,他们单厢想不到一间矮小上的超大型子公司和一间被黑出xiang的巨霸子公司。不足以想必浏览器的积极作用。

搜索引擎的工作原理(搜索引擎的工作原理是什么?)-第2张搜索引擎的工作原理(搜索引擎的工作原理是什么?)-第3张

做为商品人,为此总之无法无动于衷,也如果介绍介绍其组织工作基本原理。

浏览器组织工作基本原理大体能分成3个关键步骤

1. 两栖类与截取

2. 后处理

3. 次序

简而言之一图胜聪悟,没图我说个……

搜索引擎的工作原理(搜索引擎的工作原理是什么?)-第4张

PS:上图归纳自《SEO两栖作战公钥》。

上面详尽描述:

两栖类与截取

简单地说:就是浏览器蜘蛛沿着网络络两栖类并截取其两栖类的页面,将这些截取的页面存储起来。

说到这,你可能会问:为甚么叫「蜘蛛」?

为了截取尽量多的页面,浏览器会跟踪页面上的链接,从一个页面两栖类到下一个页面,好像蜘蛛在蜘蛛网上两栖类那样,这就是浏览器蜘蛛这个名称的由来。

浏览器在跟踪网络上的链接时,会使用一定策略,因为现在的网络链接太多。最简单的两栖类遍历策略有两种,一种是深度优先,一种是广度优先

还有一点值得一提:浏览器访问网站页面时类似于普通用户使用的浏览器。浏览器蜘蛛截取的数据存入原始页面数据库,其中的页面数据与用户浏览器得到的HTML完全一样。

后处理

由于截取的页面数量太大(以亿为单位),无法快速实时次序,所以需要后处理。这就是商品设计中的「复杂性守恒原则」,他们没办法让用户等待十几秒甚至更久,就只能在后台处理上下功夫。

搜索引擎的工作原理(搜索引擎的工作原理是什么?)-第5张

在一些资料中,「后处理」也被称为「索引」,因为「索引」是后处理最主要的内容。

后处理的过程比较复杂,值得一提的有这么几点:

  • 去重:对于内容相似度高的,浏览器不喜欢,因为用户不喜欢这样的内容。所以,浏览器的去重算法很可能不止于页面级别,而是进行到段落级别。因此,混合不同文章、交叉调换段落顺序也无法使转载和抄袭变成原创。所以,少抄袭,多原创吧
  • 正向索引:能简称为「索引」。通过这个关键步骤,浏览器将页面及关键词形成词表结构存储进索引库。简化的索引词表形式如下。你看,这样就得到了每个文件(如每个页面)的对应关键词。这样用户就能搜索了吗?还不行。
搜索引擎的工作原理(搜索引擎的工作原理是什么?)-第6张
  • 倒排索引:正向索引虽然提供了文件与关键词的对应关系,但无奈用户搜索的是关键词,因此浏览器还需根据这些对应关系找到某关键词对应的文件,这样的计算量无法满足实时返回排名结果的要求。因此,还需要倒排索引。倒排索引与正向索引刚好相反,它以关键词为关键,简单来说如下表:
搜索引擎的工作原理(搜索引擎的工作原理是什么?)-第7张

得到了倒排索引,就能很快地根据用户搜索的关键词找到对应文件,但这样就够了吗?别天真啊。

通过上述关键步骤,其实只得到了页面本身的内容。说白了,就是页面本身告诉浏览器自己如何如何。

俗话说:王婆卖瓜,自卖自夸。

就像他们网购时不仅会看店家给的商品介绍,还会看看买家的评论一样,页面内容质量,也需要其他人的评价——这里的「其他人」指「其他页面。」所以,他们还需要链接关系计算。

  • 链接关系计算:每个页面上都有链接,不同页面之间用链接互相关联起来,这些关联关系,就形成了其他页面对某个页面的评价。这些复杂的链接指向关系形成了网站和页面的链接权重。

排名

发现没有:排名,是用户是用户唯一能感觉到的关键步骤,两栖类与截取、后处理,都在后台完成。正因如此,用户才会感到用起来十分快捷。

排名的过程也比较复杂,其中值得一提的有如下几点:

  • 搜索词处理:说白了,就是处理用户输入的关键词。这一步对用户来说更为关键,因为浏览器还不够智能,需要他们去学习一些高级指令,以获得更为精准的内容。

但由于每个关键词对应的文件数量都可能是巨大的(如几亿个),处理如此庞大的数据量,无法满足用户对「快」的需求。同时,用户并不需要所有内容,他们往往只查看前几页内容,甚至很多用户只查看第一页的前几条内容。因此,选择一定数量的内容进行处理,很有必要。这就涉及到选择初识子集

但如何选择呢?这是一个问题。

  • 选择初识子集:选择出示子集,关键在于「权重」。所以说权重有多重要,即使页面做得好,但权重不高,连做备胎的机会都没有。
  • 相关性计算:这是排名过程中最重要的一步,最终搜索结果页面的排名基本按照相关性从高到低次序。

但到此就结束了吗?还没有哦。

  • 排名过滤及调整:为了保证用户搜索结果更符合用户需求,浏览器需要过滤掉那些处心积虑钻空子的页面,在这一步,浏览器会找出这些页面并施加惩罚。典型的例子是百度的11位。所以,过度优化有风险。
  • 查询及点击日志:通过这一步,浏览器记录了用户的一些数据,从而为后续的优化提供依据。这和商品日常组织工作中的数据埋点有些相似。

本文由 @ITDoer 原创发布于人人都是商品经理。未经许可,禁止转载