合肥做网站,选择疯狗科技,专业、敬业的合肥网络公司
首页 > 网站SEO优化 > 详情

创建robots.txt需要注意的几点?

2020-04-16 13:33:19   来源:转载   浏览:  次
一:robots基础知识robots协议(也称爬虫协议、机器人协议等),全称是网络爬虫排除标准(Robots Exclusion Protocol),网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。Robot txt的作用?可以让蜘蛛

一:robots基础知识

robots协议(也称爬虫协议、机器人协议等),“全称是网络爬虫排除标准”(Robots Exclusion Protocol),网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。

Robot.txt的作用?

可以让蜘蛛更高效的爬行网站

可以阻止蜘蛛爬行动态页面,从而解决重复收录的问题

可以减少蜘蛛爬行无效页面,节省服务器带宽

可以屏蔽搜索引擎屏蔽一些隐私页面或者临时页面

如何创建robots.txt文件呢?

右击桌面——新建文本文档——重命名为robots.txt(所有文件必须小写)——编写规则——用FTP把文件上(放到根目录下)传到空间

创建robots.txt需要注意的知识点:

1、必须是txt结尾的纯文本文件

2、文件名所有字母必须是小写

3、文件必须要放在根目录下

4、文件内的冒号必须是英文半角状态下

二:robots参数讲解

User-agent

主要作用:用于描述搜索引擎蜘蛛的名字

举列:

1、描述所有蜘蛛

User-agent:*

2、描述百度蜘蛛

User-agent:BaiduSpider

百度:BaiduSpider

谷歌:Googlebot

搜狗:Sogou web spider

好搜:360Spider

MSN:MSNBot

有道:YoudaoBot

宜搜:EasouSpider

User-agent技巧:

1、当robots.txt不为空的时候,必须至少有一条User-adent记录

2、相同的名字,只能有一条(例如User-agent:*),但是不同蜘蛛,可以有多条记录(例如:User-agent:Baiduspider和User-agent:Googlebot)。

Disallow

主要作用:用于描述不允许搜索引擎爬行和抓取的URL。

使用技巧:

1、在robots.txt中至少要有一条Disallow

2、Disallow记录为空,则表示网站所有页面都允许被抓取。

3、使用Disallow,每个目录必须单独分开声明

4、注意Disallow:/abc/(abc目录底下的目录不允许抓取,但是目录底下的html允许抓取)和Disallow:/abc(abc目录底下的目录跟html都不允许被抓取)的区别。

相关热词搜索:404错误 上一篇:判断关键词竞争程度的6个要点? 下一篇:百度快照出现问题后应该怎样解决?