首先要了解概念。何为robots,robots.txt是一个纯文本文件,用于声明该网站中不想被蜘蛛访问的部分,或者指定蜘蛛抓取的部分。简而言之,robots.txt不是规定,而是一种约定,需要蜘蛛自觉遵守的一种习俗。
当蜘蛛访问一个站点时,它会首先检查该站点是否存在robots.txt。如果找到,蜘蛛就会按照该文件中的内容来确定抓取的范围,如果该文件不存在,那么蜘蛛就沿着链接直接抓取。
robots.txt的存在路径:放置在一个站点的根目录下,而且文件名必须全部小写。
robots的常见语法:
User-agent:*
是针对哪个搜索引擎蜘蛛。这里的*代表搜索引擎,*是通配符。
Allow
定义的是允许蜘蛛抓取某个栏目或文件
Allow:/cgi-bin/
这里定义的是允许访问cgi-bin目录
Allow:/* .htm$
允许访问以“。htm”为后缀的URL,$指的是匹配行结束符,*指的是匹配任何字符。
Disallow
定义的是禁止蜘蛛抓取某个栏目或文件
Disallow:/admin/
这里定义是禁止抓取admin目录
Disallow:/cgi-bin/*.htm
禁止抓取/cgi-bin/目录下的所有以“。htm”为后缀的URL
Disallow:/*?*
禁止抓取网站中所有包含问号“?”的网址
robots.txt的用法
sitemap:http://www.google.com/sitemap.xml
sitemap:URL全称(包含http://部分)
是告诉搜索引擎蜘蛛这个页面是网站地图。
补充:
robots.txt不能删除搜索引擎中已收录的页面,但robots meta标签可以解决这个问题。
robots.txt文件主要是限制整个站点或者目录的蜘蛛访问情况,而robots meta标签主要是针对某个具体的页面。
如:<meta name=“robots”content=“index,follow”>
robots meta标签语法
name=“robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=“Baiduspider”
content部分有四个指令,以英文逗号隔开
index指令告诉蜘蛛可以抓取该页面
follow指令表示蜘蛛可以爬行该页面上的链接
共有四种组合:
<meta name=“robots”content=“index,follow”>
<meta name=“robots”content=“noindex,follow”>
<meta name=“robots”content=“index,nofollow”>
<meta name=“robots”content=“noindex,nofollow”>
特殊写法:
<meta name=“robots”content=“index,follow”>可以写成<meta name=“robots”content=“all”>
<meta name=“robots”content=“noindex,nofollow”>可以写成<meta name=“robots”content=“none”>
网站地图的制作,在织梦后台可以生成。另外还可以用到老虎地图工具,用工具去生成。方法可以在工具介绍里查询。