一:robots基础知识
robots协议(也称爬虫协议、机器人协议等),“全称是网络爬虫排除标准”(Robots Exclusion Protocol),网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。
Robot.txt的作用?
可以让蜘蛛更高效的爬行网站
可以阻止蜘蛛爬行动态页面,从而解决重复收录的问题
可以减少蜘蛛爬行无效页面,节省服务器带宽
可以屏蔽搜索引擎屏蔽一些隐私页面或者临时页面
如何创建robots.txt文件呢?
右击桌面——新建文本文档——重命名为robots.txt(所有文件必须小写)——编写规则——用FTP把文件上(放到根目录下)传到空间
创建robots.txt需要注意的知识点:
1、必须是txt结尾的纯文本文件
2、文件名所有字母必须是小写
3、文件必须要放在根目录下
4、文件内的冒号必须是英文半角状态下
二:robots参数讲解
User-agent
主要作用:用于描述搜索引擎蜘蛛的名字
举列:
1、描述所有蜘蛛
User-agent:*
2、描述百度蜘蛛
User-agent:BaiduSpider
百度:BaiduSpider
谷歌:Googlebot
搜狗:Sogou web spider
好搜:360Spider
MSN:MSNBot
有道:YoudaoBot
宜搜:EasouSpider
User-agent技巧:
1、当robots.txt不为空的时候,必须至少有一条User-adent记录
2、相同的名字,只能有一条(例如User-agent:*),但是不同蜘蛛,可以有多条记录(例如:User-agent:Baiduspider和User-agent:Googlebot)。
Disallow
主要作用:用于描述不允许搜索引擎爬行和抓取的URL。
使用技巧:
1、在robots.txt中至少要有一条Disallow
2、Disallow记录为空,则表示网站所有页面都允许被抓取。
3、使用Disallow,每个目录必须单独分开声明
4、注意Disallow:/abc/(abc目录底下的目录不允许抓取,但是目录底下的html允许抓取)和Disallow:/abc(abc目录底下的目录跟html都不允许被抓取)的区别。