966SEO学习网»SEO学习网 › 网站优化专区（增删板块） › SEO经验分享 › robots文件您了解多少？-挂黑链

发新帖

查看: 1113|回复: 0

robots文件您了解多少？-挂黑链

发消息

发表于 2020-7-1 01:56 | 显示全部楼层 |阅读模式

很多的SEOER对robots协议非常感兴趣！但是很多朋友却是对robots文件还仅仅是停留在了解，知道robots的基础上！今天我们就来给大家详细说说关于robots！以及robots的写法！Robots是什么？robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索引擎蜘蛛访问某站点时，蜘蛛会首先检查该站点根目录下是否存在robots.txt，如果存在，蜘蛛就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。Robots文件格式:User-agent:User-agent的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何机器人均有效，在"robots.txt"文件中，"User-agent:*"这样的记录只能有一条。Disallow:Disallow的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被robot访问到。例如"Disallow:/help"对/help.html 和/help/index.html都不允许搜索引擎访问，而"Disallow:/help/"则允许robot访问/help.html，而不能访问/help/index.html。任何一条Disallow记录为空，说明该网站的所有部分都允许被访问，在"/robots.txt"文件中，至少要有一条Disallow记录。如果"/robots.txt"是一个空文件，则对于所有的搜索引擎robot，该网站都是开放的。Allow:该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL是允许robot访问的。例如"Allow:/hibaidu"允许robots访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL的功能。需要特别注意的是Disallow与Allow行的顺序是有意义的，robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。"*"和"$"：robots支持使用通配符"*"和"$"来模糊匹配url："$" 匹配行结束符。"*" 匹配0或多个任意字符。常见robots写法：禁止蜘蛛抓取网站所有内容User-agent: *Disallow: /允许蜘蛛抓取网站所有内容User-agent: *Disallow:禁止抓取动态URL：User-agent: *Disallow: *?*禁止抓取js文件User-agent: *Disallow: *.js$添加网站地图：User-agent: *Sitemap: https://www.zhongtao.net/sitemap.xml注：1、百度并不会严格遵守robots协议2、搜索引擎中需要在后台进行验证robots文件总结：以上便是我们今天为大家带来的关于Robots的一些基础知识！希望本文能够帮助到大家，让大家更加了解robots以及robots的配置方法！如需更多关于优化基础资讯教程，请继续关注我们！

robots文件您了解多少？-挂黑链

回复

发新帖

966SEO学习网

GMT+8, 2024-11-23 23:17

Powered by SEO学习网 本站采用创作共用版权 CC BY-NC-SA 3.0 CN 许可协议，转载或复制请注明出处

© 2014-2019 投诉建议及友链申请联系邮箱：[email protected]

快速回复 返回顶部 返回列表