跨境男孩 | 跨境人需了解的Google搜索引擎工作原理

实际上Google搜索引擎技术的工作过程是非常复杂的,我在这里简单介绍下Google搜索引擎是怎样实现网页在SERP排名的,帮助做独立站SEO及从事互联网的朋友理解。

Google搜索引擎原理,最重要的三步:   

  • 蜘蛛爬行&抓取
  • 预处理&收录(建立索引)
  • 算法排序(提供搜索结果)

 

一:蜘蛛爬行&抓取


爬行和抓取是Google搜索引擎工作的第一步,完成对网络上存在的网站页面数据的采集任务。Google官方解释是 —— “抓取” 是指Google 使用称为抓取工具的自动化程序从其在互联网上找到的页面下载文本、图像和视频。

执行抓取的程序称为Googlebot (也称为机器人或蜘蛛)。Googlebot 使用算法过程来确定要抓取哪些网站、抓取频率以及从每个网站抓取多少页面。

Googlebot 会遵循Robots.txt文件中的协议,某些页面可能被网站所有者禁止抓取,蜘蛛就不会抓取。比如无法在不登录状访问的页面(如购物车页、结账页等)、重复页面等(如许多网站都可以通过域名的 www(www.domain.com)和非 www(domain.com) 版本访问)

跨境男孩 | 跨境人需了解的Google搜索引擎工作原理

(某网站的Robots.txt文件


Google可以通过对已知的页面实行深度和广度的遍历策略,去跟踪发现新页面和新内容,比如博客文章内发现产品链接(Inboud Links)等。

跨境男孩 | 跨境人需了解的Google搜索引擎工作原理

或者通过站长提交站点地图(Sitemap)到GSC(Google Search  Console), Google 会参考Sitemap进行抓取,这也会发现到其他页面。

Googlebot抓取还会涉及其他知识方面:

  • Robots.xtx文件
  • 跟踪链接
  • 地址库
  • 吸引蜘蛛
  • 文件存储
  • 爬行时检测重复内容
  • 抓取预算等

 

二:预处理&收录(建立索引)

预处理就是分析及处理抓取的网站数据内容;收录就是搜索引擎把页面存储到数据库的结果,也叫索引(Index)

Google 的官方解释是—— “抓取页面后,Google 会尝试分析该页面的内容。这个阶段称为索引,它包括处理和分析文本内容和关键内容标签和属性,例如meta title、meta description、alt 属性、图像、视频等。”

Google会对抓取的原内容经过文字提取、分词、消噪、去重等后,得到独特、反映页面主要内容的、以词为单位的字符串。接下来就是搜索引擎索引程序就可以提取文件中的关键词,将URLs页面转换成一个关键词的集合。如下方所示:

URLs TDKU内容中的关键词
URL-1 关键词1,关键词2,关键词8,关键词10,…,关键词A
URL-2 关键词2,关键词8,关键词20,关键词80,…,关键词B
URL-3 关键词2,关键词8,关键词20,关键词80,…,关键词M
…….
URL-N 关键词3,关键词10,关键词71,关键词90,…,关键词N

(正向索引示例)

接下来,搜索引擎会将正向索引数据库重新构造成为倒排索引,把URLs(或理解为URLs中内容文件)对应到关键词的映射关系转换为:关键词到URLs的映射。

在下面的倒排索引中,关键词是主键,每个关键词都对应着一些类文件或URLs,这些文件中都出现了这个关键词。这些数据会在下一阶段提供排名搜索结果中使用到。

关键词 URLs
关键词1 URL-1,URL-2,URL-3,URL-9,…,URL-Q
关键词2 URL-9,URL-10,URL-11,URL-18,…,URL-W
关键词3 URL-8,URL-9,URL-10,URL-19,…,URL-E
……. …….
关键词N URL-4,URL-5,URL-12,URL-21,…,URL-R

(倒排索引示例)

 

Google收录还会涉及其他知识方面:

  • 链接关系计算

  • 特殊文件处理

  • 质量判断等

三:排名(提供搜索结果)

在上一步GoogleBot收录了你的内容到Google 自己的搜索引擎数据库,收录了不代表立马有排名,Google对于新网站有个考察期,考察期内网站内容更新节奏比较稳定,没有恶意垃圾外链操作,Google开始慢慢放开给你排名。

当用户输入查询时,Google搜索引擎会在索引中搜索匹配页面,并返回Google认为质量最高且与用户最相关的结果。

这个过程就会用到第二点索引部分提到的倒排索引,使得文件匹配能够快速完成。

关键词 URLs
关键词1 URL-1,URL-8,URL-3,URL-9,…,URL-Q
关键词2 URL-9,URL-10,URL-11,URL-18,…,URL-W
关键词3 URL-8URL-9,URL-10,URL-19,…,URL-E
……. …….
关键词N URL-4,URL-5,URL-12,URL-21,…,URL-R

文件匹配(倒排索引快速匹配关键词对应的URL)


举个例子:若用户搜索”关键词3″,就会在SERP(搜索结果页面)展示URL-8URL-9,URL-10,URL-19,…,URL-E。

若用户搜索”关键词1  and 关键词3″,排名程序只要在倒排索引中找到”关键词1 “和 “关键词3″这两个词,就能找到分别含有这两个关键词的所有页面,经过简单求页面交集即:URL-8和URL-9

但其实Google搜索引擎Rank的相关性由数百个因素决定,其中可能包括用户的位置、语言和设备(桌面或电话)、搜索意图等信息。

搜索引擎排名这块内容还涉及:

  • 搜索词处理
  • 初始子集的选择
  • 相关性计算
  • 排名过滤及调整
  • 搜索缓存
  • 查询及点击日志等

 

本网站文章皆为作者授权。发布者:跨境男孩,转载请注明出处:https://ruofanseo.com/google-search-engine/

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 21 6 月, 2023 12:57 下午
下一篇 21 6 月, 2023 1:08 下午

相关推荐

  • SEO必须知道的谷歌算法

    Google的算法是不透明的,不会向大众公开,即便是谷歌的CEO也不能完全知道谷歌的算法。所以,SEO从业者就只能通过谷歌公布出来的算法细枝末节去推敲排名的因素,来指导自己的SEO工作。了解Google更多算法细节避免踩坑。 谷歌的算法非常多,并且谷歌的算法每天都在持续更新中,很多都不对外公布,我这里只简单地列出对SEO具有重大意义的几个算法。 一. Pag…

    21 6 月, 2023
    4000
  • 叒升级了!人工智能绘图Midjourney已接入开启公测!ChatGPT+Midjourney结合,一个由AI创造的平行世界诞生

    Midjourney 的本质就是一个有着极高绘画水平的精神病,或者叫灵魂画手。她为“默认漂亮”而构建的,因此即使对于定义模糊的提示,她也能提供更可靠的“审美”图像!有图有真像的时代彻底成为过去! Midjourney近期在AI生成图片领域热度可以说堪比OpenAI。MidjourneyV4版本去年年底几乎跟ChatGPT同期上线,而就在GPT-4推出的时候,…

    5 7 月, 2023
    9900
  • 建站系统哪家强|测评

    点击“蓝字”关注我们   建站系统随着时间的推移,日益增多。想当年,我刚入行,被丢去自己研究的时候。我用过opencart、worpress、shopify。所以我的使用心得绝对是最真实实在。 首先opencart,我觉得好难过啊。它虽然是属于一次付费,后续没什么费用类型,可是,在国内都没什么人跟你交流。所以我不是很建议的。而且后来有BUG我请了I…

    27 6 月, 2023
    4900
  • 如何整合FB广告与SEO策略提升独立网站业绩

    一个粉丝朋友今天问到,Facebook广告怎么和SEO打配合为自己独立站打造多渠道流量?   这个问题我觉得很典型,我想不是所有人在做跨境独立站的时候就预先布局了SEO的。大部分跨境独立站一开始的想法就是为Facebook广告而生,一部分是为Google广告而生。他们建站之初没考虑SEO因素,随着广告的成本越来越昂贵,才开始探索SEO领域的免费流量…

    3 4 月, 2023
    6300
  • 如何通过映射法高效全面布局全站SEO关键字【附模板】

    调研阶段需要做好充分的关键字研究。常用的关键字挖掘方法有头脑风暴、关键字工具、搜索引擎下拉和相关提示、参考竞争对手、社区等,这些技巧对创作单个主题SEO文章是非常有效的。但是,当涉及到整站关键字布局时,你会发现以上方法收集到的关键字杂乱无章、有遗漏、并且需要花大量的时间优化到网站上。 而关键字映射法能够高效、全面、清晰有条理地把关键字布置到整个网站上。尤其适…

    25 6 月, 2023
    4200

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

159-7415-9137

在线咨询: QQ交谈

邮件:ruofan1001@gmail.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
关注微信
关注公众号
关注公众号
分享本页
返回顶部