在互联网中,信息的重复性是在所难免的。然而,搜索引擎怎样识别重复信息?怎样判断哪些网页的信息是原创的?哪些是复制的?怎样认为哪些重复的信息是有价值的?哪些又是可以舍弃的呢?
在网站中,重复信息主要包括转载和镜像内容两大类。搜索引擎对页面分析的时候,必须具备是被重复信息的能力。因为大量的重复信息不但占用巨大的服务器资源,而且还增加了用户寻找信息的时间,降低了用户体验。但这并不意味着所有重复信息都是没有用的。搜索引擎会认为转载内容没有原创重要,赋予原创内容更高的权重,而镜像内容则几乎忽略。
转载页面是指与原创内容相同或相近的页面。然而,搜索引擎如何识别转载页面呢?首先,它把网页正文内容分为n个区域进行比较,如果其中有m个区域是相同或相似的,则认为这些页面是互为转载页面。
在确定页面的转载关系后,接下来,搜索引擎在结合页面的最后修改时间,页面权重等因素判断原创页面与转载页面。
镜像页面是指内容完全相同的两个页面。和上述一样,把内容分出n个区域,比对吼n个区域完全一样则互为镜像页面。
镜像网站。下一上完全相同的网站,形成镜像网站主要有两种情况。一个多个域名或IP指向同一服务器的物理目录。另外就是整个网站内容被复制到使用不同域名或者不同IP的服务器上。
为了识别站点间是否互为镜像网站搜索引擎首先判断这些网站的首页是否互为镜像。然后综合页面权重,建立时间等诸多因素识别源网站。这也是为什么搜索引擎对于镜像网站收录极少,甚至不收录的原因。