跨境男孩 | 跨境人需了解的Google搜索引擎工作原理

实际上Google搜索引擎技术的工作过程是非常复杂的,我在这里简单介绍下Google搜索引擎是怎样实现网页在SERP排名的,帮助做独立站SEO及从事互联网的朋友理解。

Google搜索引擎原理,最重要的三步:   

  • 蜘蛛爬行&抓取
  • 预处理&收录(建立索引)
  • 算法排序(提供搜索结果)

 

一:蜘蛛爬行&抓取


爬行和抓取是Google搜索引擎工作的第一步,完成对网络上存在的网站页面数据的采集任务。Google官方解释是 —— “抓取” 是指Google 使用称为抓取工具的自动化程序从其在互联网上找到的页面下载文本、图像和视频。

执行抓取的程序称为Googlebot (也称为机器人或蜘蛛)。Googlebot 使用算法过程来确定要抓取哪些网站、抓取频率以及从每个网站抓取多少页面。

Googlebot 会遵循Robots.txt文件中的协议,某些页面可能被网站所有者禁止抓取,蜘蛛就不会抓取。比如无法在不登录状访问的页面(如购物车页、结账页等)、重复页面等(如许多网站都可以通过域名的 www(www.domain.com)和非 www(domain.com) 版本访问)

跨境男孩 | 跨境人需了解的Google搜索引擎工作原理

(某网站的Robots.txt文件


Google可以通过对已知的页面实行深度和广度的遍历策略,去跟踪发现新页面和新内容,比如博客文章内发现产品链接(Inboud Links)等。

跨境男孩 | 跨境人需了解的Google搜索引擎工作原理

或者通过站长提交站点地图(Sitemap)到GSC(Google Search  Console), Google 会参考Sitemap进行抓取,这也会发现到其他页面。

Googlebot抓取还会涉及其他知识方面:

  • Robots.xtx文件
  • 跟踪链接
  • 地址库
  • 吸引蜘蛛
  • 文件存储
  • 爬行时检测重复内容
  • 抓取预算等

 

二:预处理&收录(建立索引)

预处理就是分析及处理抓取的网站数据内容;收录就是搜索引擎把页面存储到数据库的结果,也叫索引(Index)

Google 的官方解释是—— “抓取页面后,Google 会尝试分析该页面的内容。这个阶段称为索引,它包括处理和分析文本内容和关键内容标签和属性,例如meta title、meta description、alt 属性、图像、视频等。”

Google会对抓取的原内容经过文字提取、分词、消噪、去重等后,得到独特、反映页面主要内容的、以词为单位的字符串。接下来就是搜索引擎索引程序就可以提取文件中的关键词,将URLs页面转换成一个关键词的集合。如下方所示:

URLs TDKU内容中的关键词
URL-1 关键词1,关键词2,关键词8,关键词10,…,关键词A
URL-2 关键词2,关键词8,关键词20,关键词80,…,关键词B
URL-3 关键词2,关键词8,关键词20,关键词80,…,关键词M
…….
URL-N 关键词3,关键词10,关键词71,关键词90,…,关键词N

(正向索引示例)

接下来,搜索引擎会将正向索引数据库重新构造成为倒排索引,把URLs(或理解为URLs中内容文件)对应到关键词的映射关系转换为:关键词到URLs的映射。

在下面的倒排索引中,关键词是主键,每个关键词都对应着一些类文件或URLs,这些文件中都出现了这个关键词。这些数据会在下一阶段提供排名搜索结果中使用到。

关键词 URLs
关键词1 URL-1,URL-2,URL-3,URL-9,…,URL-Q
关键词2 URL-9,URL-10,URL-11,URL-18,…,URL-W
关键词3 URL-8,URL-9,URL-10,URL-19,…,URL-E
……. …….
关键词N URL-4,URL-5,URL-12,URL-21,…,URL-R

(倒排索引示例)

 

Google收录还会涉及其他知识方面:

  • 链接关系计算

  • 特殊文件处理

  • 质量判断等

三:排名(提供搜索结果)

在上一步GoogleBot收录了你的内容到Google 自己的搜索引擎数据库,收录了不代表立马有排名,Google对于新网站有个考察期,考察期内网站内容更新节奏比较稳定,没有恶意垃圾外链操作,Google开始慢慢放开给你排名。

当用户输入查询时,Google搜索引擎会在索引中搜索匹配页面,并返回Google认为质量最高且与用户最相关的结果。

这个过程就会用到第二点索引部分提到的倒排索引,使得文件匹配能够快速完成。

关键词 URLs
关键词1 URL-1,URL-8,URL-3,URL-9,…,URL-Q
关键词2 URL-9,URL-10,URL-11,URL-18,…,URL-W
关键词3 URL-8URL-9,URL-10,URL-19,…,URL-E
……. …….
关键词N URL-4,URL-5,URL-12,URL-21,…,URL-R

文件匹配(倒排索引快速匹配关键词对应的URL)


举个例子:若用户搜索”关键词3″,就会在SERP(搜索结果页面)展示URL-8URL-9,URL-10,URL-19,…,URL-E。

若用户搜索”关键词1  and 关键词3″,排名程序只要在倒排索引中找到”关键词1 “和 “关键词3″这两个词,就能找到分别含有这两个关键词的所有页面,经过简单求页面交集即:URL-8和URL-9

但其实Google搜索引擎Rank的相关性由数百个因素决定,其中可能包括用户的位置、语言和设备(桌面或电话)、搜索意图等信息。

搜索引擎排名这块内容还涉及:

  • 搜索词处理
  • 初始子集的选择
  • 相关性计算
  • 排名过滤及调整
  • 搜索缓存
  • 查询及点击日志等

 

本网站文章皆为作者授权。发布者:跨境男孩,转载请注明出处:https://ruofanseo.com/google-search-engine/

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 6月 21, 2023 12:57 下午
下一篇 6月 21, 2023 1:08 下午

相关推荐

  • GMC被封怎么办?谷歌审核难,申诉难,希望我能帮你解解难

    GMC被封这个事情其实经常也发生。尤其对于新账户。我曾电话和官方联系,对于新站,承认会存在误判的可能。但是,我们不能每次被封都怪误判,要尽可能降低违反政策。   GMC是什么? 全称Google Merchant Center,如果想要投放谷歌购物广告,就必须通过GMC。 必须用gmail创建,创建账户后将能够上传产品的 feed 到谷歌商家中心,然后再列出…

    6月 30, 2023
    8700
  • 谷歌重要算法更新历程(建议收藏,随时备用)

    最近有很多同学私聊,然后也探讨了很多关于SEO的问题,同时也收到了很多同学的鼓励与支持。这令我在坚持更新干货的路上又多了几分动力。 我认为要想把网站的SEO做好,谷歌历史重大的更新算法是需要去了解清楚的。在严谨自己做SEO的同时,也能更好的避免踩坑。 这篇文章是我研究谷歌开发者的博客、谷歌搜索的Twitter,然后结合自己的理解而成,文章最后两段会设定他们的…

    4月 4, 2023
    6600
  • 从Bert、ChatGPT到GPT-4,你想知道的所有LLM更新,都全了(100+个LLM链接)

    资料来源: 根据 Alan D. Thompson 博士的资料整理,持续更新

    6月 17, 2023
    4600
  • 紧急!记得操作GA4升级|内含设置教程

    Google Analytics 4 是与之前的Universal Analytics/GA3完全不同的全新版本,2023下半年(7月后)会全面替换UA。 本篇指南将会展示如何安装和使用 Google Analytics 4 (GA4), 以便大家更好的迁移并使用新平台。相比GA3, GA4绝对是好东西,这次的内容比较硬核,是为了让大家先要对GA4有基础的了…

    6月 29, 2023
    6000
  • 干货丨如何提高B2B着陆页转化率?

    提高转化率是大多数 B2B 企业纷纷绞尽脑汁想要达成的目标。而通过线上销售以产生更多业务的公司则更需要做好着陆页,该页面高度关注一件事 —— 如何能够捕获到潜在客户信息以填充销售渠道。   着陆页的最终目标是说服潜在客户采取行动并转化,即使是最微小的改动优化也可能带来很大的效果改善。 那么如何产生更多潜在客户和客户,以下是提高 B2B 目标网页转化率的几种有…

    6月 20, 2023
    4600

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

联系我们

159-7415-9137

在线咨询: QQ交谈

邮件:ruofan1001@gmail.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
关注微信
关注公众号
关注公众号
分享本页
返回顶部