帖子内容包括搜索引擎优化与重复内容

时间:2013-02-16 作者:Soyo

试图在此处找到答案,但似乎无法找到此特定场景。。。

我们的产品包括多个已定义的资源,例如,每个都有3个针对不同情况的不同用户指南,每个都有一些视频,等等。

嗯,我们过去只为每个产品提供一个页面,所有这些信息都在可访问的选项卡中。这对SEO很有效。但我们有800多种产品,并开始收到要求,例如,显示所有特定类型的手册或所有特定类型的视频。

因此,我们决定使用帖子创建一个资源部分,每个帖子位于特定的资源类别(即手册)中,并表示单个资源(例如手册),然后为每个特定的产品标记它们。当直接查看这些资源时,它们包含指向实际产品页面的链接。这允许独立轮询资源,并显示在用户请求的存档中。

在产品页面一侧,我们将使用一个允许我们查询资源的插件,将这些单独的资源“包括”到每个产品的选项卡中,并完整地显示出来。每个资源都完整地显示在这些选项卡中,只剥离了产品链接,使内容看起来是页面的本机内容——事实上,我们的页面看起来与以前完全一样。

但突然,一个问题出现了——这是否会造成内容重复的情况?我们真的很想把我们的资源编入索引,但从搜索引擎的角度来看,我可以看出这可能是一个问题。

我还应该补充一点,当执行站点搜索(使用标准WP搜索)时,只会出现单个资源帖子-因此它不会像人们所期望的那样看到实际产品页面上存在的信息-但我假设访问机器人时情况并非如此,他们会看到每个产品页面及其所有包含的选项卡内容,以及他们个人资源帖子中的相同内容?

如果您能从SEO的角度思考如何最好地处理这个问题,我将不胜感激。

谢谢

澄清我添加此内容是为了澄清我所问的与Wordpress相关的问题:

1) 在这种情况下以及wordpress的工作方式下,SE将看到包含所有内容的完整产品帖子,我是否正确?

2) 既然Wordpress的“搜索”没有这样看(大概是因为它在搜索数据库,而不是实际生成的页面),那么如果我们不索引“个人资源”帖子,Wordpress“无法在搜索中显示主要产品帖子”会不会对这些页面的SE产生负面影响?在这种情况下,是否需要更好的搜索插件?

3) 最后,如果我们没有任何指向单个资源页面的菜单项,并且它们唯一会出现的时间是通过搜索(目前是这种情况),那么即使我们没有将它们包含在站点地图中,SE是否仍会根据Wordpress的工作方式找到这些页面?

谢谢

1 个回复
SO网友:Marc Dingena

如果资源和产品可以在不同的唯一URL上访问,但这些页面在某些区域显示相同的内容,那么它肯定会被标记为重复内容。

有时您无法避免重复内容。例如,当您有博客帖子和列出全部帖子的分类页面时,您可以继续关注WordPress主题。帖子或分类页面将被视为重复内容。

你可以在某种程度上控制谷歌和其他搜索引擎如何处理这些内容。我将列出几种方法。我将把这个问题视为与WordPress完全相关,您可以将其转换为自己的实现。(我相信这将是WP SE受益的最佳方式)。

规范页面

一个微妙的解决方案是使用规范页面。在帖子的页面上,您可以在<head> 第节:

<link rel="canonical" href="http://www.example.com/post-title/" />
记住自行关闭/> 此标签(或任何<meta> 标签)。而且here\'s an article from Google 关于使用规范页面。

这个新选项允许网站所有者建议谷歌应该视为规范的页面版本。谷歌在确定哪些URL集包含相同的内容,并计算这些页面中最相关的页面以显示在搜索结果中时,将结合其他信号考虑到这一点。

使用机器人<meta> 标记可以指示搜索引擎不要为页面编制索引。此外,使用相同的标记,您可以指示他们忽略该页面上找到的所有链接(而不是爬行)。

<meta name=\'robots\' content=\'noindex, nofollow\' />
noindex 顾名思义,将指示搜索引擎不要索引此页面。nofollow 将指示搜索引擎不要“点击”any 在该页上找到链接。

不要混淆<meta name=\'robots\' content=\'nofollow\' /> 具有<a rel=\'nofollow>\'.

使用robots.txt

您可以使用robots.txt 文件将此文件放在网站的根目录中,并确保可以通过http://www.example.com/robots.txt.

此文本文件的内容应如下所示:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

Sitemap: http://www.example.com/sitemap.xml.gz
一个好主意是包括一个站点地图(WordPress有插件)。

请知道,机器人中没有“通配符”(比如*)这样的东西。txt,即使Google says different. 上的星号User-agent 行是唯一允许的通配符。It will not work on Disallow directives!

也没有Allow: 指令。而谷歌可能会效仿这些机器人的改进。txt的概念,它们肯定不是所有搜索引擎都遵守的。除非您专门为谷歌服务,否则只能使用official robots.txt website.

值得一提的是,即使没有显式通配符,您仍然可以针对多个对象。

Disallow: / 将阻止搜索引擎索引您的整个网站(根目录和其中的所有内容)。

Disallow: /joe/ 将阻止搜索引擎索引joe 文件夹,该文件夹位于根目录内。

Disallow: /joe 将阻止搜索引擎索引根目录中的所有内容joe. 所以joe.htmljoey.html 不会编制索引,但hank.html

最后一句话要记住,即使你做了这三件事(我鼓励你这么做),搜索引擎也不必明确遵守这些指示。它们只是:说明。尤其是恶意软件爬虫会忽略您指示的任何内容,因为他们想尽可能了解您网站的所有信息。

结束

相关推荐

使用GET_POSTS参数/数组/字符串

我正在将所有query\\u posts查询转换为get\\u posts,之前我做了大量关于这对性能有多糟糕的研究。我的解决方案是get\\u posts,但使用它让我感到困惑。以下是我所拥有的: $posts = get_posts(\'showposts=-1&offest=10&post_type=any\'); foreach ($posts as $post) : ?>