帖子内容包括搜索引擎优化与重复内容

时间：2013-02-16 作者：Soyo

试图在此处找到答案，但似乎无法找到此特定场景。。。

我们的产品包括多个已定义的资源，例如，每个都有3个针对不同情况的不同用户指南，每个都有一些视频，等等。

嗯，我们过去只为每个产品提供一个页面，所有这些信息都在可访问的选项卡中。这对SEO很有效。但我们有800多种产品，并开始收到要求，例如，显示所有特定类型的手册或所有特定类型的视频。

因此，我们决定使用帖子创建一个资源部分，每个帖子位于特定的资源类别（即手册）中，并表示单个资源（例如手册），然后为每个特定的产品标记它们。当直接查看这些资源时，它们包含指向实际产品页面的链接。这允许独立轮询资源，并显示在用户请求的存档中。

在产品页面一侧，我们将使用一个允许我们查询资源的插件，将这些单独的资源“包括”到每个产品的选项卡中，并完整地显示出来。每个资源都完整地显示在这些选项卡中，只剥离了产品链接，使内容看起来是页面的本机内容——事实上，我们的页面看起来与以前完全一样。

但突然，一个问题出现了——这是否会造成内容重复的情况？我们真的很想把我们的资源编入索引，但从搜索引擎的角度来看，我可以看出这可能是一个问题。

我还应该补充一点，当执行站点搜索（使用标准WP搜索）时，只会出现单个资源帖子-因此它不会像人们所期望的那样看到实际产品页面上存在的信息-但我假设访问机器人时情况并非如此，他们会看到每个产品页面及其所有包含的选项卡内容，以及他们个人资源帖子中的相同内容？

如果您能从SEO的角度思考如何最好地处理这个问题，我将不胜感激。

谢谢

澄清我添加此内容是为了澄清我所问的与Wordpress相关的问题：

1）在这种情况下以及wordpress的工作方式下，SE将看到包含所有内容的完整产品帖子，我是否正确？

2）既然Wordpress的“搜索”没有这样看（大概是因为它在搜索数据库，而不是实际生成的页面），那么如果我们不索引“个人资源”帖子，Wordpress“无法在搜索中显示主要产品帖子”会不会对这些页面的SE产生负面影响？在这种情况下，是否需要更好的搜索插件？

3）最后，如果我们没有任何指向单个资源页面的菜单项，并且它们唯一会出现的时间是通过搜索（目前是这种情况），那么即使我们没有将它们包含在站点地图中，SE是否仍会根据Wordpress的工作方式找到这些页面？

谢谢

1 个回复

SO网友:Marc Dingena

如果资源和产品可以在不同的唯一URL上访问，但这些页面在某些区域显示相同的内容，那么它肯定会被标记为重复内容。

有时您无法避免重复内容。例如，当您有博客帖子和列出全部帖子的分类页面时，您可以继续关注WordPress主题。帖子或分类页面将被视为重复内容。

你可以在某种程度上控制谷歌和其他搜索引擎如何处理这些内容。我将列出几种方法。我将把这个问题视为与WordPress完全相关，您可以将其转换为自己的实现。（我相信这将是WP SE受益的最佳方式）。

规范页面

一个微妙的解决方案是使用规范页面。在帖子的页面上，您可以在<head> 第节：

<link rel="canonical" href="http://www.example.com/post-title/" />

记住自行关闭/> 此标签（或任何<meta> 标签）。而且here\'s an article from Google 关于使用规范页面。

这个新选项允许网站所有者建议谷歌应该视为规范的页面版本。谷歌在确定哪些URL集包含相同的内容，并计算这些页面中最相关的页面以显示在搜索结果中时，将结合其他信号考虑到这一点。

使用机器人<meta> 标记可以指示搜索引擎不要为页面编制索引。此外，使用相同的标记，您可以指示他们忽略该页面上找到的所有链接（而不是爬行）。

<meta name=\'robots\' content=\'noindex, nofollow\' />

noindex 顾名思义，将指示搜索引擎不要索引此页面。nofollow 将指示搜索引擎不要“点击”any 在该页上找到链接。

不要混淆<meta name=\'robots\' content=\'nofollow\' /> 具有<a rel=\'nofollow>\'.

使用`robots.txt`

您可以使用robots.txt 文件将此文件放在网站的根目录中，并确保可以通过http://www.example.com/robots.txt.

此文本文件的内容应如下所示：

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

Sitemap: http://www.example.com/sitemap.xml.gz

一个好主意是包括一个站点地图（WordPress有插件）。

请知道，机器人中没有“通配符”（比如*）这样的东西。txt，即使Google says different. 上的星号User-agent 行是唯一允许的通配符。It will not work on Disallow directives!

也没有Allow: 指令。而谷歌可能会效仿这些机器人的改进。txt的概念，它们肯定不是所有搜索引擎都遵守的。除非您专门为谷歌服务，否则只能使用official robots.txt website.

值得一提的是，即使没有显式通配符，您仍然可以针对多个对象。

Disallow: / 将阻止搜索引擎索引您的整个网站（根目录和其中的所有内容）。

Disallow: /joe/ 将阻止搜索引擎索引joe 文件夹，该文件夹位于根目录内。

Disallow: /joe 将阻止搜索引擎索引根目录中的所有内容joe. 所以joe.html 和joey.html 不会编制索引，但hank.html 将

最后一句话要记住，即使你做了这三件事（我鼓励你这么做），搜索引擎也不必明确遵守这些指示。它们只是：说明。尤其是恶意软件爬虫会忽略您指示的任何内容，因为他们想尽可能了解您网站的所有信息。

结束

小码农CODE

帖子内容包括搜索引擎优化与重复内容

规范页面

使用`robots.txt`

最后一句话要记住，即使你做了这三件事（我鼓励你这么做），搜索引擎也不必明确遵守这些指示。它们只是：说明。尤其是恶意软件爬虫会忽略您指示的任何内容，因为他们想尽可能了解您网站的所有信息。

相关推荐

使用GET_POSTS参数/数组/字符串

帖子内容包括搜索引擎优化与重复内容

规范页面

使用robots.txt

最后一句话要记住，即使你做了这三件事（我鼓励你这么做），搜索引擎也不必明确遵守这些指示。它们只是：说明。尤其是恶意软件爬虫会忽略您指示的任何内容，因为他们想尽可能了解您网站的所有信息。

相关推荐

使用GET_POSTS参数/数组/字符串

使用`robots.txt`