换句话说,用户在搜索引擎(例如百度)中搜索某个与你网站内容相关的关键词时,SEO可以让你的网站排名更加靠前,可以为你的网站带来源源不断的流量,为你带来更多的用户。
爬行和抓取:爬行和抓取是搜索引擎工具获得内容的基础,搜索引擎本身不生产内容,搜索引擎只不过是内容(大自然)的搬运工。
预处理:就像我们在整理文件时候要进行整理一样,搜索引擎在获取到了大量的内容之后,要对杂乱的内容进行预处理。
排名:根据一定的规则,将这么多规整好的内容进行排名处理。
提到对互联网内容的爬行和抓取,就得提到蜘蛛(侠)Spider(man)。
蜘蛛是搜索引擎用来爬行和访问页面的程序,他就想真实世界的蜘蛛一样,在互联网这张大网上面不断的爬行,当爬到一个网站的时候,就会把网站的内容记录下来,这样搜索引擎就会收录下来,其他用户通过搜索引擎就可以搜索到这个网站了。
搜索引擎收录网站内容的过程中,其实含有更复杂的逻辑,这里就不做衍生了。另外关于反爬,一版之主爬行网站的时候会优先访问根目录下的robots.txt,如果该文件禁止搜索引擎抓取某些文件或目录,则蜘蛛将不进行抓取被禁止的网站。
接下来我们将网络爬虫的抓取策略:
广度优先遍历策略:广度优先策略是按照树的层级进行搜索,如果此层没有搜索完成,不会进入下一层搜索。也就是说会首先完成一个层级的搜索,其次进行下一层级的搜索,我们也可以理解为分层处理。再或者说,就是优先遍历种子页面的所有二级页面,遍历完二级页面后,在遍历所有的三级页面,如下图:


正常情况下,在实际的爬行过程中,会根据页面结构的不同,爬行策略会进行有机组合。
提高网站和页面的权重
俗话讲,有人的地方就有江湖,互联网也是如此,一些老牌网站,由于网站建设时间长,有一定的江湖地位,所以蜘蛛会优先对这些网站进行爬取。
提高页面内容质量
人们都喜欢新鲜事物,蜘蛛也不例外,蜘蛛对新的内容爬取优先级非常高,如果你的网站持续有原创的新鲜内容,蜘蛛会非常喜欢光顾你的网站,但如果蜘蛛每次来到你的网站,发现都是一些转载或者抄袭的内容,它就会认为你的网站没有创造新内容的能力,甚至会再也不造访你的网站。
持续对网站进行更新
蜘蛛喜欢勤劳的小蜜蜂,如果网站持续更新,那么蜘蛛将有可能定时对该网站进行爬取。
找知名网站引入友链
前面提到,知名网站蜘蛛会优先进行爬取,而蜘蛛爬取的逻辑是顺着链接不断爬行,所以我们可以找一些已经成熟的网站,让他们帮忙引入一条我们自己网站的链接,蜘蛛就可以顺着这条链接爬到我们的网站。
SEO内容非常多,小编也是半吊子,本次就先讲这么多。
本文来源于:SEO优化—搜索引擎工作原理-变化吧门户
特别声明:以上文章内容仅代表作者本人观点,不代表变化吧门户观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与变化吧联系。
- 赞助本站
- 微信扫一扫
-
- 加入Q群
- QQ扫一扫
-
评论