新版GSC查看单个页面是否被谷歌收录文章

花享团 次浏览

摘要:info命令/新版GSC查看单个页面是否被谷歌收录Frog查cached页面Http状态,由于网页快照(cached)是搜索引擎在收录网页时对网页进行的备份,因此可以利用爬虫爬取该页面的数据来确认网页是否在搜索引擎中存有网页快照,确定是否被搜索引擎索引。Frog批量检查页面收录情况。

· info命令/新版GSC检查单个页面是否被Google索引

文章来自:【“共融家园”快速排名系统任务发布平台】。

· GSC可导出1000页采集数据

· 1000多个页面包含检查/快速检查部分新上线页面的包含状态:尖叫青蛙抓取网页快照,判断页面快照是否存在,推断页面是否已被包含

· 使用Excel的VLOOKUP函数匹配最近的GA访问和整个sitemap文件,过滤掉一些包含的页面,并获取未确认的包含的页面,以提高后续步骤的效率。

· 利用Excel的CONCATENATE函数匹配快照命令+页面链接,直接批量生成网页快照链接

· 尖叫青蛙抓取并确认网页快照。 如果返回代码 200,则说明已包含该代码。 代码302需要进一步检查(注意使用VPN并调整抓取速度,避免被Google屏蔽)

· 检查爬取结果返回302的页面

我们知道,网站页面要在SERP中排名,过程非常复杂百度收录批量查询,但可以分为三个部分:爬取抓取页面的HTML代码并存储到数据库中; 对页面数据进行文本提取、中文分词等预处理; 最后等待用户搜索关键词,页面才会在SERP中排名。

如果你想检查某个页面是否被单独包含,可以使用 info 命令:

百度收录批量查询_批量收录查询百度百科_批量收录查询百度账号

您还可以通过新版Google Search Console的URL检查功能进行查看。

批量收录查询百度账号_批量收录查询百度百科_百度收录批量查询

对于想要检查大量网站页面收录的用户,可以使用新版GSC的索引报告导出网站页面收录报告,方便检查哪些页面没有收录,但只能导出1000个页面。

批量收录查询百度账号_百度收录批量查询_批量收录查询百度百科

除了使用GSC批量检查网站页面包含状态之外,另一种替代方法是使用Screaming Frog检查缓存页面的HTTP状态。 由于网页快照(缓存)是搜索引擎收录网页时网页的备份,因此可以使用爬虫对其进行爬取。 获取页面的数据,以确认该网页在搜索引擎中是否有网页快照,并判断是否被搜索引擎收录。 页面超过 1,000 个的网站或只想检查是否包含新页面的用户可以尝试此解决方案。 下面介绍如何使用Screaming Frog批量检查页面包含状态。

百度收录批量查询_批量收录查询百度百科_批量收录查询百度账号

1. 在网站中:GA匹配SITEMAP过滤的部分已包含在页面中。

对于页面数量特别多的网站,可以先过滤掉部分已确认收录的页面,以提高后续收录检查的效率。 如果该页面可以自然访问,则说明搜索引擎已经将该页面展示给用户,即GA中已自然访问过的页面为收录页面。 这一步我们直接过滤掉近一个月获取的GA导出展示页面,去除大量收录页面,提高后面步骤的效率。

百度收录批量查询_批量收录查询百度百科_批量收录查询百度账号

导出GA数据后,使用VLOOKUP函数匹配网站站点地图,过滤掉匹配成功的页面(即确定包含的页面)。 简单解释一下VLOOKUP函数中需要包含的数据,即=VLOOKUP(要匹配的数据,匹配到的数据,需要的数据在匹配到的数据中的x列,近似值1或精确值返回值为0),该方法中=VLOOKUP(站点地图中的某个页面如A2,GA数据列表A2:A731,仅获取列表中一列的数据1,与0精确匹配),得到站点地图数据中可以在 GA 数据中匹配的页面。 删除匹配的页面后,我们会得到未确认包含的页面,然后进行下一步。

批量收录查询百度账号_批量收录查询百度百科_百度收录批量查询

2.批量生成Google网页快照链接。

上一步得到的待定包含页面,现在我们考虑使用Screaming Frog抓取Google页面缓存来确认该页面是否已被包含(包含时会检测缓存快照)。 由于Google缓存快照(cached)链接有一定的规则(webcache.googleusercontent.com/search?q=cache:页面链接),所以这一步我们使用excel上的连接功能批量连接Google缓存命令和网页链接。 获取下一步准备筛选的链接列表。

批量收录查询百度百科_百度收录批量查询_批量收录查询百度账号

3、使用SCREAMING FROG批量捕获链路状态。

现在我们只需要通过Screaming Frog批量抓取这些链接状态即可。 如果状态码返回200,则该页面已成功被搜索引擎索引; 如果是404,则表示尚未建立索引。

点击Upload上传所有需要检查的链接,点击Start开始爬取页面信息:

批量收录查询百度百科_批量收录查询百度账号_百度收录批量查询

注意:

由于我们现在使用爬虫软件来爬取Google搜索信息,IP地址很有可能被屏蔽。 因此,在使用爬虫之前,我们一定要注意使用VPN来迷惑我们的IP地址,降低尖叫青蛙的爬行速度。 。

在Screaming Frog上打开代理:在“配置”>“系统”>“代理”中单击“使用代理服务器”

百度收录批量查询_批量收录查询百度账号_批量收录查询百度百科

控制尖叫青蛙的爬行速度:

批量收录查询百度百科_百度收录批量查询_批量收录查询百度账号

4. 查看爬取结果。

如果抓取过程中返回302状态码,则说明已被Google屏蔽,需要调整抓取速度并更改VPN区域。 如果只有少数链接返回302状态码,谷歌就需要对你进行人机识别百度收录批量查询,我们可以一一查询。

批量收录查询百度百科_百度收录批量查询_批量收录查询百度账号

随机内容