统一资源定位符(Uniform Resource Locator,URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
U
R
L
URL Uniform Resource Locator
URL链接对网站有多重要?就好比人身体的无数血管一样,稍有不畅,就会带来各种各样的问题,URL优化的效果跟站点在百度的权重关联性不大,但是对收录、蜘蛛爬行和传递权重有明显的提升。
统一资源定位符 URL 是对可以从因特网上得到的资源的位置和访问方法的一种简洁的表示。
URL 给资源的位置提供一种抽象的识别方法,并用这种方法给资源定位。
只要能够对资源定位,系统就可以对资源进行各种操作,如存取、更新、替换和查找其属性。
URL 相当于一个文件名在网络范围的扩展。因此 URL 是与因特网相连的机器上的任何可访问对象的一个指针。
URL结构介绍
模式/协议(scheme):它告诉浏览器如何处理将要打开的文件。最常用的模式是超文本传输协议(Hypertext Transfer Protocol,缩写为HTTP),这个协议可以用来访问网络。其他协议如下:
? http——超文本传输协议资源
? https——用安全套接字层传送的超文本传输协议
? ftp——文件传输协议
? mailto——电子邮件地址
? ldap——轻型目录访问协议搜索
? file——当地电脑或网上分享的文件
? news——Usenet新闻组
? gopher——Gopher协议
? telnet——Telnet协议
第二部分:文件所在的服务器的名称或IP地址,后面是到达这个文件的路径和文件本身的名称。服务器的名称或IP地址后面有时还跟一个冒号和一个端口号。它也可以包含接触服务器必须的用户名称和密码。路径部分包含等级结构的路径定义,一般来说不同部分之间以斜线(/)分隔。询问部分一般用来传送对服务器上的数据库进行动态询问时所需要的参数。
有时候,URL以斜杠“/”结尾,而没有给出文件名,在这种情况下,URL引用路径中最后一个目录中的默认文件(通常对应于主页),这个文件常常被称为 index.html 或 default.htm。
URL优化要点
URL一致性:URL 一致性是一个非常重要的指标,推荐大家一本书《走进搜索引擎》里面有介绍spider是一种机器程序,而非人脑,虽然也有学习的过程,但是国内网站千千万,每个网站有不同的url规范,你如果url命名规则杂乱无章spider又怎能高效的辨别你的内容规范? 这里举个个人觉得做的比较好的case:“下载吧”。读者可以去翻阅下载吧的网站。他的主体结构为:首页=>列表页=>内容页 。这里因地制宜,只是举例可能并不适合你的站点。
偏权重:通过分析发现,每个站点的流量是有集中点的。这个从爱站的工具里面可以看出来。同一个网站 90%的流量都出自于某个目录,在这里面内容类型内容质量都是一样的。相信大家在自己作站过程中也有所体会,百度会偏向给权重到某个目录。考虑到这个问题,url一致性和目录规划就更重要了。
爬行原理:蜘蛛爬行原理有 深度优先和宽度优先这里分开说一下:
(1)深度优先:深度优先适用于一些大站,蜘蛛很渴望得到他的内容,比如新浪网易他们的目录很长,也能收录。假如我们给蜘蛛一个线程只能爬取一个页面,爬行轨迹:首页-封面页-频道页-内容页,那么你网站的结构是:首页=> xxx/a=> xxx/a/b=> xxx/a/b/c/1.html=>。蜘蛛会沿着你的深度爬行进去,但是无论多大的站,你的深度也必须有限,否则蜘蛛不可能无穷尽的挖掘进去,爬累了自然就会离开。并且内容也没带回去。
(2)宽度优先:这个是我非常推崇的,而且我所有新站都是这种效果。我自己建了5天的站蜘蛛爬行800次。效果说明在扁平化的今天,宽度优先是可以让蜘蛛非常高效的爬行和返回的。url结构 xxx/a/ xxx/b/ xxx/c/ 这类的叫宽度优化,爬行轨迹 :首页-频道页A-频道页B-频道页C/首页-频道页A-内容页A1-内容页A2-内容页A*
综上所述。其实可以看出:宽度优先的效率明显高于深度优先。而且蜘蛛的任务类别也单一,非常容易识别。同一线程爬取的几乎是同一类型页面,页面样式,外观相同。蜘蛛不必花时间过于的去分析你的页面内结构,层次清晰。
爬虫黑洞:这个问题不是什么新问题了。百度也有做专门的阐述,因为一些url处理不当产生的动态参数后缀,或是刻意圈住蜘蛛所做的无限循环,这种的效果明显是弊大于利。对URL 的规划上一定要想办法尽可能的处理掉无限动态参数后缀,并且也要合理的给蜘蛛出口,这才是真正有利于SEO 的做法,关于处理爬虫黑洞的办法这里我不做多讲解。
创建具有良好描述性、规范、简单的url,有利于用户更方便的记忆和判断网页的内容,也有利于搜索引擎更有效的抓取您的网站。网站设计之初,就应该有合理的url规划。
动态URL怎样能利于SEO
1、CGI/ Perl方面
网站页面中使用的是 CGI 或者 Perl,可用一个脚本拾取环境变量前的所有字符,再将URL 中剩余字符赋值给一个变量。就可以在 URL 中使用该变量了。不过,对于内置了部分 SSI(Server-Side Include:服务器端嵌入)内容的网页,主要的搜索引擎都能够提供索引支持。以shtml 为后缀名的网页也被解析成 SSI 文件,相当于通常的html 文件。但这些网页在其 URL 中使用的是cgi-bin 路径,则有可能不被搜索引擎索引。
2、ASP方面
ASP(Active Server Pages: Web 服务器端网页开发技术)被用于基于微软的网络服务器中。使用 ASP 开发的网页,一般后缀名为asp。只要避免在 URL 中使用符号“?”,大多数搜索引擎都能够支持用 ASP 开发的网页。
3、Cold Fusion方面
如果使用的是 Cold Fusion,那么就需要在服务器端重新对其进行配置,使其能够将一个环境变量中的符号“?”用符号“/”代替,并将替换后的数值传给 URL。这样一来,最后到达浏览器端的就是一个静态的URL 页。当搜索引擎对该转换后的文件进行检索时,它不会遭遇“?”,因而可继续对整个动态页的索引,从而使网页对搜索引擎仍然具有可读性。
4、Apache 服务器
Apache 是最流行的 HTTP 服务器软件之一。它有一个做 mod_rewrite 的重写模块,即 URL重写转向功能。该模块能够使你将包含环境变量的 URL 转换为能够为搜索引擎支持的 URL类型。对于那些发布后无须多少更新的网页内容如新闻,可采用该重写转向功能。
5、建立静态入口
在“静动结合,以静制动”的原则指导下,还可以通过对网站做一些修改,尽可能增加网页的搜索引擎可见度。如将网页编入静态主页或网站地图的一个链接中,以静态目录的方式呈现该动页面。或者为动态页面建立一个专门的静态入口页面,链接到动态页面,然后将静态入口页面递交给搜索引擎。对一些重要的、内容相对固定的页面制作为静态网页,如包含有丰富关键词的介绍、用户帮助,以及含有重要页面链接的地图等。
网站的首页尽量采用静态形式,并将重要动态内容以文本链接方式全部呈现,虽然增加了维护工作量,但从SEO的角度看是值得的。