创建robots.txt需要注意的几点？

一：robots基础知识

robots协议（也称爬虫协议、机器人协议等），“全称是网络爬虫排除标准”（Robots Exclusion Protocol），网站通过robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不可以抓取。

Robot.txt的作用？

可以让蜘蛛更高效的爬行网站

可以阻止蜘蛛爬行动态页面，从而解决重复收录的问题

可以减少蜘蛛爬行无效页面，节省服务器带宽

可以屏蔽搜索引擎屏蔽一些隐私页面或者临时页面

如何创建robots.txt文件呢？

右击桌面——新建文本文档——重命名为robots.txt（所有文件必须小写）——编写规则——用FTP把文件上（放到根目录下）传到空间

创建robots.txt需要注意的知识点：

1、必须是txt结尾的纯文本文件

2、文件名所有字母必须是小写

3、文件必须要放在根目录下

4、文件内的冒号必须是英文半角状态下

二：robots参数讲解

User-agent

主要作用：用于描述搜索引擎蜘蛛的名字

举列：

1、描述所有蜘蛛

User-agent：*

2、描述百度蜘蛛

User-agent：BaiduSpider

百度：BaiduSpider

谷歌：Googlebot

搜狗：Sogou web spider

好搜：360Spider

MSN：MSNBot

有道：YoudaoBot

宜搜：EasouSpider

User-agent技巧：

1、当robots.txt不为空的时候，必须至少有一条User-adent记录

2、相同的名字，只能有一条（例如User-agent:*），但是不同蜘蛛，可以有多条记录（例如：User-agent：Baiduspider和User-agent:Googlebot）。

Disallow

主要作用：用于描述不允许搜索引擎爬行和抓取的URL。

使用技巧：

1、在robots.txt中至少要有一条Disallow

2、Disallow记录为空，则表示网站所有页面都允许被抓取。

3、使用Disallow，每个目录必须单独分开声明

4、注意Disallow:/abc/（abc目录底下的目录不允许抓取，但是目录底下的html允许抓取）和Disallow:/abc（abc目录底下的目录跟html都不允许被抓取）的区别。

疯狗微信

手机网站

网站地图

帮助中心

备案登录

首页

关于

服务

案例

优惠

互联网课堂

资讯

评价

联系