SEO优化—搜索引擎工作原理-变化吧

2020年3月12日21:41:27优化评论阅读模式

什么是SEO

搜索引擎优化，又称为SEO，即Search Engine Optimization，这是一种根据剖析百度搜索引擎的排行规律性，掌握各种各样百度搜索引擎如何开展检索、如何爬取互联网技术网页页面、如何明确特殊关键字的百度搜索排行的技术性。百度搜索引擎选用便于被检索引入的方式，对网址开展有目的性的提升，吸引更多的用户访问网站，提高网站的访问量，提高网站的销售能力和宣传能力，从而提升网站的品牌效应。

换句话说，用户在搜索引擎（例如百度）中搜索某个与你网站内容相关的关键词时，SEO可以让你的网站排名更加靠前，可以为你的网站带来源源不断的流量，为你带来更多的用户。

搜索引擎工作原理

搜索引擎工作的原理简单分为三部分，分别是爬行和抓取、预处理、排名。

爬行和抓取：爬行和抓取是搜索引擎工具获得内容的基础，搜索引擎本身不生产内容，搜索引擎只不过是内容（大自然）的搬运工。

预处理：就像我们在整理文件时候要进行整理一样，搜索引擎在获取到了大量的内容之后，要对杂乱的内容进行预处理。

排名：根据一定的规则，将这么多规整好的内容进行排名处理。

爬行和抓取：

提到对互联网内容的爬行和抓取，就得提到蜘蛛（侠）Spider（man）。

蜘蛛是搜索引擎用来爬行和访问页面的程序，他就想真实世界的蜘蛛一样，在互联网这张大网上面不断的爬行，当爬到一个网站的时候，就会把网站的内容记录下来，这样搜索引擎就会收录下来，其他用户通过搜索引擎就可以搜索到这个网站了。

搜索引擎收录网站内容的过程中，其实含有更复杂的逻辑，这里就不做衍生了。另外关于反爬，一版之主爬行网站的时候会优先访问根目录下的robots.txt，如果该文件禁止搜索引擎抓取某些文件或目录，则蜘蛛将不进行抓取被禁止的网站。

接下来我们将网络爬虫的抓取策略：

广度优先遍历策略：广度优先策略是按照树的层级进行搜索，如果此层没有搜索完成，不会进入下一层搜索。也就是说会首先完成一个层级的搜索，其次进行下一层级的搜索，我们也可以理解为分层处理。再或者说，就是优先遍历种子页面的所有二级页面，遍历完二级页面后，在遍历所有的三级页面，如下图：

深度优先遍历策略：深度优先遍历策略是指网络爬虫会从其起始页开始，一个链接一个链接跟踪下去，处理完这条线路的链接之后，再转入下一个起始页，继续跟踪链接。换言之，就是优先遍历种子页面某一个二级页面之后的所有分支，当蜘蛛爬到该分支的最低端，没有新链接供蜘蛛继续爬行后，则蜘蛛返回种子页面，爬取另外一个二级页面下面的分支。如下图：

除了这两种策略之外，还有部分的PageRank策略、OPIC策略、大站优先策略等，此处不做衍生。

正常情况下，在实际的爬行过程中，会根据页面结构的不同，爬行策略会进行有机组合。

如何吸引蜘蛛

整个互联网的内容如同星辰大海，以目前技术，蜘蛛无法也没必要对整个互联网的所有内容进行爬取，而没有被蜘蛛爬取过的内容，则无法通过搜索引擎搜索到，因此我们要取了解蜘蛛的习性，这样就可以吸引蜘蛛过来爬取我们的网站，从而被搜索引擎收录，那么如何吸引蜘蛛呢？

提高网站和页面的权重

俗话讲，有人的地方就有江湖，互联网也是如此，一些老牌网站，由于网站建设时间长，有一定的江湖地位，所以蜘蛛会优先对这些网站进行爬取。

提高页面内容质量

人们都喜欢新鲜事物，蜘蛛也不例外，蜘蛛对新的内容爬取优先级非常高，如果你的网站持续有原创的新鲜内容，蜘蛛会非常喜欢光顾你的网站，但如果蜘蛛每次来到你的网站，发现都是一些转载或者抄袭的内容，它就会认为你的网站没有创造新内容的能力，甚至会再也不造访你的网站。

持续对网站进行更新

蜘蛛喜欢勤劳的小蜜蜂，如果网站持续更新，那么蜘蛛将有可能定时对该网站进行爬取。

找知名网站引入友链

前面提到，知名网站蜘蛛会优先进行爬取，而蜘蛛爬取的逻辑是顺着链接不断爬行，所以我们可以找一些已经成熟的网站，让他们帮忙引入一条我们自己网站的链接，蜘蛛就可以顺着这条链接爬到我们的网站。