谷歌SEO|如何批量检查网站页面收录情况

幸运草
幸运草
幸运草
921
文章
3
评论
2020年7月5日12:42:57 评论 121

怎么样才能使网站没有收录的文章重新收录

网站页面要在SERP中获得排名,其中的流程非常复杂,但总归分为三个环节:抓取(爬行和抓取页面HTML代码存入数据库);收录(对页面数据进行文字提取等预处理,存入索引库);排名(最后等待用户搜索关键词,页面才在SERP中呈现排名)。

网站收录对于网站能否获得排名至关重要,因此网站收录检查是所有网站运营人员日常工作的一部分。如何可以更加高效地进行检查工作,同时确保检查结果的正确性,本文分享了一些操作起来较为简单可行的办法。

方法要点:

谷歌SEO|如何批量检查网站页面收录情况
1.  单个页面 直接用info命令/新版GSC查看是否被谷歌收录

2.  超过1000个页面的网站整站收录检查/快速检查多个新上线页面收录情况:Screaming Frog爬取网页快照,确定页面快照是否存在,来反推页面是否已被收录

  1. 使用Excel的VLOOKUP函数,匹配GA近期访问和整站Sitemap文件,筛选掉部分已被收录页面,得到未确认是否收录页面,为下面步骤提高效率
  2. 使用Excel的CONCATENATE函数,匹配快照命令+页面链接,直接批量生成网页快照链接
  3. Screaming Frog爬取确认网页快照,返回200码则已被收录,302码需要进一步检查(注意使用VPN,调整爬取速度,避免被谷歌block out)
  4. 对爬取结果返回302的页面进行检查
01

查看单个页面收录情况

如果单独查看某个页面是否被收录,可以用在谷歌搜索使用info命令,如info:www.crossborderdigital.cn/us-apparel-industry-overview/

谷歌SEO|如何批量检查网站页面收录情况
也可以通过新版google search console 的URL Inspection功能查看

谷歌SEO|如何批量检查网站页面收录情况
02

批量查看页面收录情况

如果要检查整站页面收录情况,可以使用新版GSC 的index report,可以导出网站页面收录情况报告,方便检查哪些页面不被收录,但是只能导出1000个页面。

谷歌SEO|如何批量检查网站页面收录情况
03

查看网站页面(>1000)收录情况

除了用GSC批量查看网站页面收录情况,还有一个替代方案是通过用Screaming Frog查cached页面Http状态,由于网页快照(cached)是搜索引擎在收录网页时对网页进行的备份,因此可以利用爬虫爬取该页面的数据来确认网页是否在搜索引擎中存有网页快照,确定是否被搜索引擎索引。

谷歌SEO|如何批量检查网站页面收录情况
页面数量在1000以上的站点,或是只希望检查新页面收录情况的用户,可以尝试使用这个方案。以下为大家展示如何使用Screaming Frog批量检查页面收录情况。

1. GA匹配sitemap筛选已被收录页面。

页面数量特别多的站点,可以先通过筛选掉部分已经确认被收录的页面,提高下面收录检查的效率。页面获得自然搜索流量,说明搜索引擎为用户展示了该页面。

谷歌SEO|如何批量检查网站页面收录情况
导出GA数据后使用VLOOKUP函数与网站sitemap进行匹配,筛选出近一个月未获得搜索流量的页面进行进一步的收录查询 (不会用Vlookup函数的小伙伴,可以在文章底部加小编微信获取模板)。

谷歌SEO|如何批量检查网站页面收录情况

2. 批量生成谷歌网页快照链接。

上一步获得的页面清单,接下来用Screaming Frog爬取谷歌页面缓存的方式,来确认页面是否已被收录。

谷歌网页快照(cached)链接格式:

https://webcache.googleusercontent.com/search?q=cache:{URL},因此我们可以通过excel函数,批量生成页面谷歌快照链接。

谷歌SEO|如何批量检查网站页面收录情况
3. Screaming Frog批量抓取链接状态。

现在我们只需要通过Screaming Frog批量抓取这些链接状态,如果状态码返回200,则该页面成功被搜索引擎索引;如果是404,则说明未被索引。

打开Sreamingfrog, 点击Upload上传所有待检查链接,点击Start开始爬取页面信息:

谷歌SEO|如何批量检查网站页面收录情况
注意:

由于我们现在是通过爬虫软件来抓取谷歌的搜索信息,IP地址极有可能被block out,因此在使用爬虫前,要注意使用VPN来操作,并且降低Screaming Frog爬取速度。

开启Screaming Frog上的代理:

Configuration>System>Proxy中点选“Use Proxy Server”

谷歌SEO|如何批量检查网站页面收录情况
控制Screaming Frog的爬取速度:

谷歌SEO|如何批量检查网站页面收录情况
4. 对爬取结果进行检查。

如果在爬取过程中都被返回302状态码,则很大可能被谷歌block out,需要调整爬行速度,更换VPN地区。如果仅有几个链接返回302状态码,则是谷歌需要对你进行人机识别,我们可以进行逐个查询。

谷歌SEO|如何批量检查网站页面收录情况

程序员也可能不知道的14个电脑使用技巧

最近,Reddit网站有一个话题引起了大家的热烈讨论,话题是:哪些电脑使用技巧是大家都应该知道的?这个话题得到了Reddit网站用户的热情回复,纷纷分享自己在使用Mac、PC、浏览器、Youtube网站或者Excel程序方面的技巧。这些技巧都有一个共同点,就是…

转载请注明:{{title}}-变化吧
  • 赞助本站
  • 微信扫一扫
  • weinxin
  • 赞助本站
  • 支付宝扫一扫
  • weinxin
幸运草
运维不仅仅是Linux居然还要懂这这些 运维

运维不仅仅是Linux居然还要懂这这些

运维不仅仅是懂Linux就行,因为还有一大部分的Windows运维,向windows运维人员致敬。当然我们这篇文章不是说运维除了懂Linux,还要懂Windows,而是涉及运维的其他方方面面。 如:环...
运维DBA的4大纪律9项注意 运维

运维DBA的4大纪律9项注意

企业级Docker镜像仓库的管理和运维朋友们调侃说,运维是个把脑袋别在裤腰带上的活,更有人说,运维是个把脑袋别在他人裤腰带上的活,苦劳没人认,有锅就有得背! 测试的同学说,“吃瓜群众很难感知运维背后的...
运维心法 | 6大技能让你告别背「锅」 运维

运维心法 | 6大技能让你告别背「锅」

运维监控做成这样,就达到 BATJ 的水准了一、 导语 我们知道监控系统的目标是:为保障业务 SLA,帮忙我们更全面、细致的了解业务系统的运行状态,更及时的发现系统风险,同时给技术运营的同学争取更多化...
运维的价值和目标拆解 运维

运维的价值和目标拆解

这里说的运维主要是指应用运维,非系统部的偏硬件和网络的运维 我不幸福 很多运维同学感觉自己很苦逼,感觉每天都在救火,给研发擦屁股,做一些重复工作,做一些对自己提升较小的事情,总结一句话,就是不幸福。 ...