全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:17710347978

网站robots.txt文件的作用及robots写法详解

一般情况,网站的根目录都会有一个robots.txt文件,是一个纯文本文档。那这个robots.txt文件是什么,有什么作用呢?robots.txt怎么写?下面深山给您一个个讲解。

robots文件是什么?

robots.txt文件是存放与网站根目录下的一个txt格式的文本文档,叫做robot协议,也可以简单的理解为爬虫协议、蜘蛛协议等,是网站与搜索引擎爬虫之间的一个协议。

协议是什么意思?计议、协商、商议。那搜索引擎爬虫是做什么的?是抓取我们网站内容的。robots文件就好似网站和爬虫之间签订的一份协议,告诉它我网站的内容,哪些你可以抓取收录,哪些你不能碰!

robots.txt文件写法详解

robots文件有什么作用?

1.保护我们网站的隐私内容不被爬虫抓取,表面透露隐私内容。例如:用户数据、管理员信息等。

2.我们可以利用好robots文件来做好网站的SEO优化工作,比如清理网站死链的时候可以把死链接写进robots文件,再或者可以将网站地图写进robots方便爬虫一次性抓取网站内容等等。

robots.txt文件基本介绍

1. 自定义搜索引擎爬虫

User-agent: 表示定义哪个搜索引擎,在robots.txt文件的第一行

  1. User-agent: * 所有蜘蛛
  2. User-agent: Baiduspider,自定义百度蜘蛛
  3. User-agent: Googlebot,自定义谷歌蜘蛛

常见搜索引擎爬虫(蜘蛛)名称:

  • 百度蜘蛛:Baiduspider
  • 谷歌蜘蛛:Googlebot
  • 360蜘蛛:360Spider
  • 搜狗蜘蛛:Sogou News Spider
  • 必应蜘蛛:bingbot
  • SOSO蜘蛛:Sosospider

这类自定义蜘蛛的写法可参考淘宝和百度等:https://www.taobao.com/robots.txthttps://www.baidu.com/robots.txt

2.禁止访问

Disallow: 表示禁止访问。

3.允许访问

Allow: 表示允许+访问。

通过以上三个命令,可以组合多种写法,允许哪个搜索引擎访问或禁止哪个页面,具体写法请继续浏览!

robots文件书写注意事项:

1.robots文件的后缀必须是.txt;

2.robots文件必须全小写字母命名,并且存放在网站的根目录下面;

3.在写robots文件的时候,Disallow、Allow、Sitemap等词首字母必须大写,后面的字母则要小写。

4.特别注意,在书写robots事,应用英文状态下的冒号,并且冒号后面必须有一个英文状态下的空格。

robots.txt书写注意事项

robots.txt写法详解

1.允许所有搜索引擎访问所有目录

User-agent: *
Allow: /

PS:这里的*表示所有。

2.禁止所有搜索引擎访问所有目录

User-agent: *
Disallow: /

3.禁止爬虫访问网站中的某些目录:

User-agent: *
Disallow: /123

禁止爬虫访问/123开头的所有文件,如http://www.vipshan.com/1234/、http://www.vipshan.com/123/1.html、http://www.vipshan.com/12345/1.html等都不能被抓取

User-agent: *
Disallow: /123/

禁止爬虫访问/123/目录下面的所有文件。

4.禁止爬虫访问某一类文件:

User-agent: *
Disallow: /*.css$ 禁止访问所有css结尾的文件
Disallow: /*.js$  禁止访问所有js结尾的文件
Disallow: /*.php$ 禁止访问所有php结尾的文件
Disallow: /123/*.jpg$ 禁止访问/123/目录下的jpg结尾的文件

PS:*表示所有,$表示结尾,上面的汉字不用写进robots去!!!

5.禁止访问网站中的动态页面:

User-agent: *
Disallow: /*?*
Disallow: /123/*?* 禁止访问/123/目录下的动态页面

PS:?表示动态路径,*表示所有。

6.禁止访问某些字母开头的目录

可以巧用这个技巧来隐藏我们网站的一些目录,例如网站后台。假设www.vipshan.com的后台目录是/abcdef/可以这样写:

User-agent: *
Disallow: /abc*

robots.txt禁止爬虫访问

PS:这样可以就表示所有abc开头的目录都不能访问,所以要注意一下不要禁止了需要被抓取的栏目。

7.禁止访问和允许访问同时存在的情况

假设/123/这个栏目下有1.html、2.html、3.html这样三个文件,我要允许访问1.html而其他的要禁止,可以这样写:

User-agent: *
Allow: /123/1.html
Disallow: /123/

8.自定义搜索引擎:

用User-agent:来定义搜索引擎,*表示所有

百度爬虫名字:11Baiduspider

谷歌爬虫名字:Googlebot(列举两个,其他的名称自己搜下)

User-agent: Baiduspider表示自定义百度蜘蛛

User-agent: Googlebot表示自定义谷歌蜘蛛

这个我就不列举了,大家可以直接参考百度或者淘宝这类大网站的robots的写法就ok了。

9.最后是网站xml地图

Sitemap: http://www.vipshan.com/sitemap.xml

大概我们常用到的深山都总结到了,希望对大家有所帮助。robots.txt文件写完传到网站根目录之后,大家可以到百度资源平台的robots检测工具去检查一下https://ziyuan.baidu.com/robots,避免把需要被抓取的内容屏蔽了!

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。