合肥做网站,选择疯狗科技,专业、敬业的合肥网络公司
首页 > 网站SEO优化 > 详情

如何写一个合理的robots.txt文件

2020-09-23 14:56:37   来源:转载   浏览:  次
robots txt文件的写法User-agent: *    这里的*代表的所有的搜索引擎种类,*是一个通配符Disallow: admin 这里定义是禁止爬寻admin目录下面的目录Disallow: require   这里定义是禁止爬寻require目录下面的目录

robots.txt文件的写法

User-agent: *    这里的*代表的所有的搜索引擎种类,*是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/   这里定义是禁止爬寻require目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC 这里定义是禁止爬寻ABC整个目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有的动态页面

Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件

User-agent: *   这里的*代表的所有的搜索引擎种类,*是一个通配符

Allow: /cgi-bin/  这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。

需要注意的是对每一个目录必须分开声明,而不要写成 “Disallow: /cgi-bin/ /tmp/”。

User-agent:后的*具有特殊的含义,代表“any robot”,所以在该文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”这样的记录出现。

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

Robot特殊参数:

允许 Googlebot:

如果您要拦截除 Googlebot 以外的所有漫游器访问您的网页,可以使用下列语法:

User-agent:

Disallow:/

User-agent:Googlebot

Disallow:

Googlebot 跟随指向它自己的行,而不是指向所有漫游器的行。

相关热词搜索:robots txt文件 上一篇:网站为什么要采用CDN进行加速? 下一篇:影响搜索引擎收录排名的因素有哪些?