在实施搜索引擎优化SEO)并对网站进行有益的更新时,您可能会在此过程中无意中造成其他问题。这些问题之一可能是重复的内容,如果不加以解决,可能随着时间的推移会损害您的SEO值和搜索引擎排名。在本文中,您将学习如何查找重复内容,通常导致重复内容的原因以及如何将其从网站中删除。

什么是重复内容?

当可以通过多个URL访问同一个网页,就会出现重复的内容。当网站上有重复的内容时,搜索引擎可能会混淆哪个URL是原始或首选内容。

多个URL访问同一个页面造成内容重复.jpg


对SEO和排名的影响

由于混乱,重复内容会导致搜索引擎机蜘蛛收入所有的URL地址,链接权益和页面权重最终可能会在重复的URL之间分割。发生这种情况的原因是,搜索引擎机器人只能选择他们认为应该为特定关键字排名的网页,而不必每次都选择相同的URL。这会导致每个URL变体接收不同的链接,页面权重得分和排名能力。

重复内容SEO分割.jpg


您网站上的重复内容可能导致三个主要问题

1.搜寻结果排名较低

2.用户体验差

3.减少自然流量

要从您的网站中删除重复的内容并防止进一步损害SEO,您首先需要查找重复的页面。

如何查找重复内容

您可以通过多种方式在网站上找到重复的内容。您可以通过以下免费方法找到重复的内容,跟踪哪些页面具有多个URL,以及发现哪些问题导致重复的内容出现。当您删除重复的页面时,这将派上用场。

注意以下常见问题:

相同URL的HTTP和HTTPS版本

同一网址的www和非www版本

带有和不带有反斜杠“ /”的URL

带有和不带有查询参数的URL

带有和不带有大写字母的URL

多页长尾查询排名

“site:”搜索

通过搜索引擎输入“ site:”,然后输入您的网站URL,您可以查看搜索引擎已编入索引的所有页面,可以查看是否存在重复页面。需要注意的重要一件事:尽管有些页面在技术上不是重复的页面,但是它们包含相同的标题标签和元描述,这可能导致两个页面之间的关键词相互蚕食和排名竞争,重复页面会遇到类似的问题。

内容重复的原因

可以创建重复内容的原因有很多(大多数是无意的)。了解可能存在的不同URL变体可以帮助您识别具有重复页面的URL。

URL变体

URL的变化可能来自会话ID、查询参数和大写字母。当URL使用的参数不改变页面上的内容时,它最终可能会创建一个重复的页面。
例如:https://www.malanco.cn/news 以及https://www.malanco.cn/news?uid=1 两者都指向完全相同的页面,但被不同的URL访问,从而导致内容页重复。
会话ID的工作方式类似。为了跟踪站点上的访问者,您可以使用会话ID来了解用户在站点上做了什么,以及他们去了哪里。为了做到这一点,会话ID被添加到他们所点击的每个页面的URL中。添加的会话ID将创建指向同一页的新URL,因此被视为重复内容。
大写字母通常不是有意添加的,但确保URL一致并使用小写字母是很重要的。例如,https://www.malanco.cn/blog和https://www.malanco.cn/Blog将被视为重复页面。

HTTP vs HTTPS和www vs non-www

在将SSL证书添加到网站时,可以保护网站的安全,从而可以使用HTTPS而不是HTTP。但是,这会使您的网站上的重复页面存在于每个页面上。同样,可以从www和非www URL访问您的网站内容。

以下URL均指向同一页面,但对于搜索引擎搜寻器而言,它们将被认为是完全不同的URL:

https://www.malanco.cn,https://malanco.cn,http://www.malanco.cn,http://malanco.cn

只能访问上述版本之一;所有其他版本应该重定向到首选版本。

抓取或复制的内容

当其他网站“窃取”另一网站的内容时,称为内容抓取。如果搜索引擎无法识别原始内容,则最终可能会对从您的网站复制的页面进行排名。复制的内容通常发生在带有产品说明站点上。如果在多个站点上销售同一产品,并且所有站点都使用制造商的产品说明,则可以在不同站点上的多个页面上找到重复的内容。

删除重复内容的方法

删除重复的内容将帮助您确保搜索引擎搜寻器可以访问正确的页面并为其建立索引。但是,您可能不希望完全删除所有类型的重复内容。在某些情况下,您只是想告诉搜索引擎哪个版本是原始版本。您可以通过以下几种方法来管理整个网站中的重复内容:

Rel =“规范”标签

rel = canonical属性是一段代码,它告诉搜索引擎爬网程序页面是指定URL的重复版本。然后,搜索引擎会将所有链接和排名能力发送到指定的URL,因为它们会将其视为“原始”内容。需要注意的一件事:使用rel = canonical标记不会从搜索结果中删除重复的页面,它只会告诉搜索引擎搜寻器原始的是哪一个,内容指标和链接公平性应该放在哪里。如果不需要删除重复的版本(例如带有参数的URL或尾部斜杠),则Rel =规范标记会很有用。

301重定向

如果您不希望访问重复的页面,则使用301重定向是最佳选择。当您实施301重定向时,它告诉搜索引擎搜寻器所有流量和SEO值都应从A页转到B页。

301重定向.png

在决定保留哪个页面以及重定向哪个页面时,请寻找性能最佳和最优化的页面。当您争夺排名排名的多个页面并将它们组合到一个内容中时,您将创建一个更强大,更相关的页面,而搜索引擎和用户将更喜欢此页面。

301重定向不仅可以帮助您处理重复的内容,请按照以下提示进行设置,并使用301重定向来提高您的SEO。

机器人Meta Noindex,关注标记

meta robots标记是您添加到要从搜索引擎索引中排除的页面HTML头中的代码段。当您添加代码“ content = noindex,follow”时,您告诉搜索引擎抓取页面上的链接,但这也阻止了它们将这些链接添加到其索引中。

元机器人noindex标记在处理分页重复内容时特别有用。当内容跨越多个页面时发生分页,从而导致多个URL。在页面上添加“ noindex,follow”代码将使搜索引擎机器人可以对页面进行爬网,但不会在搜索结果中对页面进行排名。

防止内容重复的小技巧

为了防止创建某些重复的内容,请确保您对页面的设置方式保持主动。您可以采取以下两项措施来防止重复内容的创建:

内部链接一致性

一个好的内部链接策略对于在页面上建立SEO值很重要。但是,重要的是要确保您与链接策略中URL的结构一致。

例如,如果您确定主页的规范版本为www.malanco.cn/,则指向该主页的所有内部链接应为https://www.malanco.cn/而不是https://malanco.cn/(区别在于没有www顶级域名)。

以下常见的URL变体:

HTTP与HTTPS

www与非www

斜线:example.com与example.com/

如果一个内部链接使用结尾斜杠,但另一个链接未使用相同的页面,则将创建该页面的重复内容。

使用自引用规范标签

为了防止内容被抓取,您可以添加rel = canonical元标记,该标记指向页面已位于的URL;这将创建一个自我规范的页面。添加rel = canonical标签将告诉搜索引擎当前页面是原始内容。例如:<link rel="canonical" href="https://www.malanco.cn/view/151.html">

复制网站后,HTML代码将从原始内容中获取并添加到其他URL。如果rel = canonical标签包含在HTML代码中,则它很可能也将被复制到重复的站点,从而将原始页面保留为规范版本。重要的是要注意,这是一个附加的保护措施,只有在内容搜寻器复制HTML代码的该部分时,该保护措施才起作用。