如果资源和产品可以在不同的唯一URL上访问,但这些页面在某些区域显示相同的内容,那么它肯定会被标记为重复内容。
有时您无法避免重复内容。例如,当您有博客帖子和列出全部帖子的分类页面时,您可以继续关注WordPress主题。帖子或分类页面将被视为重复内容。
你可以在某种程度上控制谷歌和其他搜索引擎如何处理这些内容。我将列出几种方法。我将把这个问题视为与WordPress完全相关,您可以将其转换为自己的实现。(我相信这将是WP SE受益的最佳方式)。
规范页面
一个微妙的解决方案是使用规范页面。在帖子的页面上,您可以在
<head>
第节:
<link rel="canonical" href="http://www.example.com/post-title/" />
记住自行关闭
/>
此标签(或任何
<meta>
标签)。而且
here\'s an article from Google 关于使用规范页面。
这个新选项允许网站所有者建议谷歌应该视为规范的页面版本。谷歌在确定哪些URL集包含相同的内容,并计算这些页面中最相关的页面以显示在搜索结果中时,将结合其他信号考虑到这一点。
使用机器人<meta>
标记可以指示搜索引擎不要为页面编制索引。此外,使用相同的标记,您可以指示他们忽略该页面上找到的所有链接(而不是爬行)。
<meta name=\'robots\' content=\'noindex, nofollow\' />
noindex
顾名思义,将指示搜索引擎不要索引此页面。
nofollow
将指示搜索引擎不要“点击”
any 在该页上找到链接。
不要混淆<meta name=\'robots\' content=\'nofollow\' />
具有<a rel=\'nofollow>\'
.
使用robots.txt
您可以使用
robots.txt
文件将此文件放在网站的根目录中,并确保可以通过
http://www.example.com/robots.txt
.
此文本文件的内容应如下所示:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Sitemap: http://www.example.com/sitemap.xml.gz
一个好主意是包括一个站点地图(WordPress有插件)。
请知道,机器人中没有“通配符”(比如*)这样的东西。txt,即使Google says different. 上的星号User-agent
行是唯一允许的通配符。It will not work on Disallow
directives!
也没有Allow:
指令。而谷歌可能会效仿这些机器人的改进。txt的概念,它们肯定不是所有搜索引擎都遵守的。除非您专门为谷歌服务,否则只能使用official robots.txt website.
值得一提的是,即使没有显式通配符,您仍然可以针对多个对象。
Disallow: /
将阻止搜索引擎索引您的整个网站(根目录和其中的所有内容)。
Disallow: /joe/
将阻止搜索引擎索引joe
文件夹,该文件夹位于根目录内。
Disallow: /joe
将阻止搜索引擎索引根目录中的所有内容joe
. 所以joe.html
和joey.html
不会编制索引,但hank.html
将
最后一句话要记住,即使你做了这三件事(我鼓励你这么做),搜索引擎也不必明确遵守这些指示。它们只是:说明。尤其是恶意软件爬虫会忽略您指示的任何内容,因为他们想尽可能了解您网站的所有信息。