快捷导航
查看: 1062|回复: 0

robots.txt文件写法,robots.txt放在哪里?-海南seo

[复制链接]

管理员

发表于 2020-7-1 01:21 | 显示全部楼层 |阅读模式
网站所有者使用/robots.txt文件向网络机器人提供有关其网站的说明;这被称为机器人排除协议。它的工作原理如下:机器人想要访问网站URL,比如http://www.xusseo.com/。在此之前,它首先检查http://www.xusseo.com/robots.txt,并找到: User-agent: * Disallow: /  “User-agent: *”表示此部分适用于所有机器人。“Disallow:/”告诉机器人它不应该访问网站上的任何页面。使用/robots.txt时有两个重要的注意事项:机器人可以忽略你的/robots.txt。特别是扫描网络以查找安全漏洞的恶意软件机器人以及垃圾邮件发送者使用的电子邮件地址收集器将不予理睬。/robots.txt文件是一个公开可用的文件。任何人都可以看到您不希望机器人使用的服务器部分。所以不要试图使用/robots.txt来隐藏信息。本页的其余部分概述了如何在服务器上使用/robots.txt,以及一些简单的配方。要了解更多信息。“/robots.txt”文件是一个文本文件,包含一个或多个记录。通常包含一个看起来像这样的记录: User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ 在此示例中,排除了三个目录。请注意,您需要为要排除的每个URL前缀单独添加“Disallow”行 – 您不能在一行中说“Disallow:/ cgi-bin / / tmp /”。此外,您可能没有记录中的空行,因为它们用于分隔多个记录。另请注意,User-agent或Disallow行不支持globbing和正则表达式。User-agent字段中的’*’是一个特殊值,意思是“任何机器人”。具体来说,你不能拥有像“User-agent:* bot *”,“Disallow:/ tmp / *”或“Disallow:* .gif”这样的行。您要排除的内容取决于您的服务器。未明确禁止的所有内容都被视为可以检索的公平游戏。以下是一些例子:从整个服务器中排除所有机器人 User-agent: * Disallow: / 允许所有机器人完全访问User-agent: *Disallow: (或者只是创建一个空的“/robots.txt”文件,或者根本不使用它)从服务器的一部分中排除所有机器人 User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/ 排除单个机器人 User-agent: BadBot Disallow: / 允许单个机器人 User-agent: Google Disallow: User-agent: * Disallow: / 排除除一个以外的所有文件这当前有点尴尬,因为没有“允许”字段。简单的方法是将所有文件禁止放入一个单独的目录,比如“stuff”,并将一个文件保留在该目录上方的级别中: User-agent: * Disallow: /~joe/stuff/ 或者,您可以明确禁止所有不允许的页面: User-agent: * Disallow: /~joe/junk.html Disallow: /~joe/foo.html Disallow: /~joe/bar.html  robots.txt放在哪里 简短的回答:在您的Web服务器的根目录中。当机器人查找URL的“/robots.txt”文件时,它会从URL中剥离路径组件(来自第一个单斜杠的所有内容),并将“/robots.txt”放在其位置。因此,作为网站所有者,您需要将其放在Web服务器上的正确位置,以便生成此URL。通常,这是您放置网站主要“index.html”欢迎页面的位置。究竟是什么,以及如何将文件放在那里,取决于您的Web服务器软件。请记住使用全文小写的文件名:“robots.txt”,而不是“Robots.TXT。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

966SEO学习网

GMT+8, 2024-11-24 11:30

Powered by SEO学习网  本站采用创作共用版权 CC BY-NC-SA 3.0 CN 许可协议,转载或复制请注明出处

© 2014-2019 投诉建议及友链申请联系邮箱:[email protected]

快速回复 返回顶部 返回列表