网站地图和robots.txt文件可以帮助您的网站与搜索引擎机器人更好地交流。在本文中,将引导您了解有关网站地图的知识,XML和HTML站点地图之间的区别,robots.txt文件以及它们对SEO好处。

什么是XML网站地图?

站点地图本质上是整个网站的地图,有两种类型:XML和HTML。简而言之,XML网站地图可帮助引导搜索引擎机器人,而HTML网站地图可帮助引导您的网站访问者。

Google声明,如果您有一个大型网站,大量内部链接不好归档内容页面;一个反向链接很少的新网站;以图像或视频为中心的网站,则可能需要一个站点地图。不过,我认为所有网站都可以从使用XML网站地图中受益,特别是因为它是改善网站与搜索引擎机器人之间通信的又一工具。

在XML网站地图中,应该包含与网站最重要的,与SEO相关的重要URL的列表,以提示搜索引擎机器人抓取这些页面。但是,在站点地图中包含这些URL并不一定意味着搜索引擎机蜘蛛将在搜索引擎结果页面(SERP)中对这些页面进行抓取和编制索引。

XML 网站地图标记

您还可以通过在XML网站地图中包含以下必需标记和可选标记来消除搜索引擎某些猜测:<loc>(位置)和<lastmod>(最后修改)标记。

<loc>标签

使用<loc>标记(唯一需要的标记),使用正确的站点协议指定URL位置的规范版本。这有助于防止出现任何重复的内容问题 。例如,如果您的网站使用https或http,则应在<loc>标记中包含正确的协议。您还应该指定您的网站是否使用www。在下面的示例中,规范URL包括正确的协议(https)和网站的版本(www)。

<url>

<loc> https://www.malanco.cn/news/118.html </ loc>
<lastmod> 2021-5-22 </ lastmod>

<url>

<lastmod>标签

使用<lastmod>标签(一个可选的但强烈建议使用的标签)将文件的最后修改日期传达给搜索引擎机器人。该标签将内容的新鲜度和原始发布者传达给搜索引擎。尽管像Google这样的搜索引擎更喜欢新鲜的内容,但不要尝试通过不断更新您的<lastmod>标签来欺骗它们,因为这可能会导致被惩罚,从而可能严重损害您的网站在SERP中的可见性。

<priority>标签

另一个但可选的标记是<priority>标记。此标记向搜索引擎发出信号,说明您认为站点地图URL的重要性在0.0(最低优先级)到1.0(最高优先级)之间。除了在XML站点地图中包含<loc>和<lastmod>标记外,请确保XML站点地图不超过50 MB(未压缩)和50,000个URL。如果文件太大或网址超过50,000个,可以使用多个站点地图。例如,您可以按博客文章URL组织一个站点地图,按产品页面URL组织另一个站点地图,依此类推。然后,您可以在一个站点地图索引文件中嵌套多个站点地图。无论采取哪种方式,将站点地图URL包含在robots.txt文件中,以帮助搜索引擎轻松地在一个地方找到站点地图。

其他类型的XML网站地图

除了标准XML网站地图外,您还可以针对特定用例使用其他几种类型。最常见的两个包括XML图像和XML视频站点地图。

XML图片站点地图

与标准XML网站地图类似,XML图片网站地图可帮助您为搜索引擎机器人指定最重要的图片。由于大多数网站将图像直接嵌入网页的内容中,因此搜索引擎可以将这些图像与内容一起抓取。这使得大多数企业都不需要图像站点地图。

仅当图像在您的业务中起重要作用时,才使用XML图像站点地图;例如,依靠搜索引擎图片搜索带来的网站访问量的图片网站。

XML视频站点地图

与XML图像站点地图类似,XML视频站点地图允许您为搜索引擎机器人指定最重要的视频内容,但是仅当视频在您的业务中起关键作用时才使用这种类型的站点地图。

XML 网站地图的SEO优势

通过在XML网站地图中包含网站最重要的,与SEO相关的URL,您可以帮助搜索引擎机器人更智能地抓取您的URL。这最终会影响搜索引擎如何查看您网站的质量。

根据搜索引擎日志,理想情况下,您应该排除以下页面:

1.非规范页面

2.重复页面

3.分页

4.基于参数或会话ID的URL

5.网站搜索结果页面

6.回复评论网址

7.任何重定向(3xx),缺少页面(4xx)或服务器错误页面(5xx)

8.被robots.txt阻止的页面

9.没有索引的页面

10.潜在客户表单可访问的资源页面(例如案例研究下载)

11.对用户有用的实用程序页面,而不是预期的目标页面(例如登录页面,隐私策略等)

搜索引擎可能认为这些页面与SEO不太相关,因为它们不代表典型的着陆页。例如,如果您不希望您的隐私页面成为网站上访问者旅程的第一页,则将其排除在XML站点地图之外。使用此经验法则可以帮助确定要从您的站点地图中包含或排除的页面。

请记住,仅仅因为您将网址保留在站点地图之外并不意味着它就不会被搜索引擎爬取。搜索引擎仍然可以通过指向这些页面的链接来爬网这些URL。您的XML网站地图只是为他们指明了您更重要的URL,这些URL应该得到抓取的计划。同样重要的是要注意,搜索引擎不会在每次访问时都始终抓取您的整个网站URL。它们遵循随机路径,并且通常不会回溯,因此它们可能会抓取您的一些内部页面,然后遵循指向完全不同网站的外部链接。

总而言之,请使用XML网站地图将与搜索引擎优化相关的最重要的URL传达给搜索引擎机器人。在站点地图中包含不太重要的URL可能会削弱搜索引擎对您网站整体质量(权威性)的认识,并浪费宝贵的抓取预算,这可能会使关键URL失去建立索引的机会。

什么是HTML网站地图?

第二种站点地图HTML站点地图比搜索引擎机器人更能帮助引导访问者,而且它们通常提供有限的SEO值。HTML网站地图使用锚点链接按类别列出网站的所有URL,以帮助访问者快速找到特定页面。例如,处理仓库,在页脚中链接到其站点地图;他们的站点地图包括指向其网站上每个产品的链接。

在网站导航菜单移至网站标题之前,HTML网站地图更为常见,但它们仍可以为特定用例添加一些SEO值。

HTML网站地图的SEO优势

如果您的主要网站导航未链接到您所有的网站页面,请考虑使用HTML网站地图。HTML网站地图可能会提供一些SEO好处,它们的主要导航包括最高级别的产品类别,并带有指向更具体的子类别的某些链接。

其他使用HTML网站地图的实例包括:如果您的网站上有很大一部分无法被搜索引擎访问,或者您通常会将其掩埋或排除在主导航菜单中的重要页面(例如支持页面),或者访问者实际上正在使用您的HTML站点地图,网站地图。对于后者,请考虑将流行的站点地图链接移到导航菜单中,以进一步优化搜索引擎菜单。

什么是ROBOTS.TXT文件?

您的robots.txt文件通常是搜索引擎机器人在访问您的网站时首先访问的网站,因此,最好在此处包含您的XML网站地图,以帮助搜索引擎更轻松地发现您最重要的网址。这个简单的文本文件位于您网站的根目录中,并告诉搜索引擎机器人它们可以抓取和不能抓取哪些页面。


robots文件示例.jpg

robots.txt文件示例(来源:https://stcroixrods.com/robots.txt)

这里的主要要点:不要使用robots.txt文件隐藏信息。即使您禁止搜索引擎机器人抓取特定页面,但如果另一个域链接到您禁止的页面之一,并且搜索引擎机器人也跟随该链接到您的页面,它们仍可以在搜索结果中为这些页面编制索引。如果您希望阻止搜索引擎机械手为URL编制索引,请使用机械手noindex标记告诉搜索引擎不要在SERP中为URL编制索引。

Robots.txt文件的SEO好处

robots.txt文件为搜索引擎提供了有关如何抓取或不抓取网站的指导。搜索引擎机器人将使用robots.txt文件中的信息来指导他们在您的网站上执行的抓取操作。总体而言,使用robots.txt文件可以帮助传达搜索引擎应如何抓取您的网站,以及将其直接引导到包含您最重要的URL的XML网站地图。

小结

使用Sitemaps和robots.txt文件,如果您能记住以下关键要点,则可以很好地改善网站与搜索引擎机器人的通信方式。

1.使用XML网站地图将与搜索引擎优化相关的最重要的URL传达给搜索引擎。

2.将不太重要的URL留在您的站点地图之外,因为它们会稀释搜索引擎对您网站的权限的感知,并浪费爬网预算。

3.仅在特定用例中使用HTML网站地图。

4.不要使用robots.txt文件隐藏信息。

5.使用robots.txt文件来传达搜索引擎机器人应如何抓取您的网站。

6.在您的robots.txt文件中添加站点地图。

7.通过百度站长工具检测robots.txt是否阻止搜索引擎抓取您的网站的错误。