一般情况,网站的根目录都会有一个robots.txt文件,是一个纯文本文档。那这个robots.txt文件是什么,有什么作用呢?robots.txt怎么写?下面深山给您一个个讲解。
robots.txt文件是存放与网站根目录下的一个txt格式的文本文档,叫做robot协议,也可以简单的理解为爬虫协议、蜘蛛协议等,是网站与搜索引擎爬虫之间的一个协议。
协议是什么意思?计议、协商、商议。那搜索引擎爬虫是做什么的?是抓取我们网站内容的。robots文件就好似网站和爬虫之间签订的一份协议,告诉它我网站的内容,哪些你可以抓取收录,哪些你不能碰!
1.保护我们网站的隐私内容不被爬虫抓取,表面透露隐私内容。例如:用户数据、管理员信息等。
2.我们可以利用好robots文件来做好网站的SEO优化工作,比如清理网站死链的时候可以把死链接写进robots文件,再或者可以将网站地图写进robots方便爬虫一次性抓取网站内容等等。
1. 自定义搜索引擎爬虫
User-agent: 表示定义哪个搜索引擎,在robots.txt文件的第一行
常见搜索引擎爬虫(蜘蛛)名称:
这类自定义蜘蛛的写法可参考淘宝和百度等:https://www.taobao.com/robots.txt,https://www.baidu.com/robots.txt
2.禁止访问
Disallow: 表示禁止访问。
3.允许访问
Allow: 表示允许+访问。
通过以上三个命令,可以组合多种写法,允许哪个搜索引擎访问或禁止哪个页面,具体写法请继续浏览!
1.robots文件的后缀必须是.txt;
2.robots文件必须全小写字母命名,并且存放在网站的根目录下面;
3.在写robots文件的时候,Disallow、Allow、Sitemap等词首字母必须大写,后面的字母则要小写。
4.特别注意,在书写robots事,应用英文状态下的冒号,并且冒号后面必须有一个英文状态下的空格。
1.允许所有搜索引擎访问所有目录
User-agent: *
Allow: /
PS:这里的*表示所有。
2.禁止所有搜索引擎访问所有目录
User-agent: *
Disallow: /
3.禁止爬虫访问网站中的某些目录:
User-agent: *
Disallow: /123
禁止爬虫访问/123开头的所有文件,如http://www.vipshan.com/1234/、http://www.vipshan.com/123/1.html、http://www.vipshan.com/12345/1.html等都不能被抓取
User-agent: *
Disallow: /123/
禁止爬虫访问/123/目录下面的所有文件。
4.禁止爬虫访问某一类文件:
User-agent: *
Disallow: /*.css$ 禁止访问所有css结尾的文件
Disallow: /*.js$ 禁止访问所有js结尾的文件
Disallow: /*.php$ 禁止访问所有php结尾的文件
Disallow: /123/*.jpg$ 禁止访问/123/目录下的jpg结尾的文件
PS:*表示所有,$表示结尾,上面的汉字不用写进robots去!!!
5.禁止访问网站中的动态页面:
User-agent: *
Disallow: /*?*
Disallow: /123/*?* 禁止访问/123/目录下的动态页面
PS:?表示动态路径,*表示所有。
6.禁止访问某些字母开头的目录
可以巧用这个技巧来隐藏我们网站的一些目录,例如网站后台。假设www.vipshan.com的后台目录是/abcdef/可以这样写:
User-agent: *
Disallow: /abc*
PS:这样可以就表示所有abc开头的目录都不能访问,所以要注意一下不要禁止了需要被抓取的栏目。
7.禁止访问和允许访问同时存在的情况
假设/123/这个栏目下有1.html、2.html、3.html这样三个文件,我要允许访问1.html而其他的要禁止,可以这样写:
User-agent: *
Allow: /123/1.html
Disallow: /123/
8.自定义搜索引擎:
用User-agent:来定义搜索引擎,*表示所有
百度爬虫名字:11Baiduspider
谷歌爬虫名字:Googlebot(列举两个,其他的名称自己搜下)
User-agent: Baiduspider表示自定义百度蜘蛛
User-agent: Googlebot表示自定义谷歌蜘蛛
这个我就不列举了,大家可以直接参考百度或者淘宝这类大网站的robots的写法就ok了。
9.最后是网站xml地图
Sitemap: http://www.vipshan.com/sitemap.xml
大概我们常用到的深山都总结到了,希望对大家有所帮助。robots.txt文件写完传到网站根目录之后,大家可以到百度资源平台的robots检测工具去检查一下https://ziyuan.baidu.com/robots,避免把需要被抓取的内容屏蔽了!
*请认真填写需求信息,我们会在24小时内与您取得联系。