不允许:robots.txt中的/wp-*?

时间:2015-07-28 作者:ban-geoengineering

我刚刚收到一封来自谷歌的电子邮件,告知它无法从我的网站访问某些javascript和css内容。

我看过机器人。包含以下内容的txt文件:

用户代理:*爬网延迟:5

不允许:/feed/

不允许:/trackback/

不允许:/wp admin/

不允许:/wp包括/

不允许:/xmlrpc。php

Disallow: /wp-*

看起来是Disallow: /wp-* 这造成了破坏。

我只是依次禁用每个插件,看看是哪个插件(如果有的话)导致这一行出现在机器人中。txt文件,但是否有其他原因(例如核心WordPress功能/设置)?

把这个拿走对我来说安全吗Disallow: /wp-* 线

2 个回复
SO网友:Spyral

这似乎是WP的默认设置,因为许多站长都收到了此警告,并且从未编辑过机器人。txt。删除所有不允许的内容是最简单的解决方案,但我假设您希望阻止部分或所有这些目录。

谷歌只关心。js和。css文件,因此理论上可以编辑机器人。txt包括:

用户代理:GooglebotAllow:/。jsAllow:/。css

然而,如果有更多的搜索爬虫效仿谷歌的例子,那么这一特定功能可能需要未来对用户代理进行更改。

你要确保你知道机器人是如何工作的。txt工作,这样您就不会意外地阻止整个网站或重要部分。这里有一个很好的参考来了解更多关于机器人的细节。txt文件:

http://www.robotstxt.org/robotstxt.html

SO网友:ban-geoengineering

我现在已经整理好了。我不知道最初的机器人在哪里。txt内容可能来自(??),但我现在在源服务器上将其更改为:

用户代理:*爬网延迟:5

不允许:/feed/

不允许:/trackback/

不允许:/wp admin/

不允许:/wp包括/

不允许:/xmlrpc。php

不允许:/wp内容/

不允许:/wp-*

此外,该站点使用CDN,因此我为CDN的机器人指定了一组单独的规则。txt文件:

用户代理:*

允许:/wp内容/

不允许:/

结束