镜像网站指的是别人将你的网站数据进行的同步,网站的界面及内容基本上都和你的网站保持一致,如果不是两个网站的主域不同站长自己都会认为是一个网站,两个网站之间就像镜子成像一样因此称为镜像网站。
思维浅析
镜像网站本身是没有多大危害的,比如一些知名度较高的站点通过设置镜像网站,用于预防网络故障保证用户的正常访问体验。但对于中小网站的SEO(依赖搜搜引擎获取流量)而言却有着不小的影响,那么如何及时发现网站被镜像呢?遇到网站镜像又该如何处理?
自己设置网站镜像是为了应对突发网络故障的一种策略,但在不知道的情况下被镜像大都是不怀好意的。要么是同行恶意竞争对你的网站进行负面SEO,要么为了利用你的网站内容获得排名,然后把用户转向到非法的内容网站,仅仅是为了不让域名闲置而镜像的网站基本不存在。
采集站和镜像站的区别
上边提到镜像网站是为了利用网站内容快速获得排名,因此有人认为镜像指的是采集,虽然从利用网站内容的目的来看两者是相同的,但采集站与镜像站在技术手段以及展现形式上还是有区别的。
采集站一般是提前将网站内容抓取,然后发布在自己网站程序进行内容发布。当被采集站更新内容之后,采集站需要重新采集并进行发布。但镜像网站并不需要提前抓取被镜像站内容,而是在用户访问时实时从被镜像的网站调取内容,期间会进行一些URL替换或者文字修改及添加js的操作。也就是说镜像网站在遇到目标站点更新时,不需要进行重新采集操作,就能保证网站的内容同步。
被镜像网站SEO有什么影响
那么镜像网站对被镜像网站SEO的影响,主要在于其他网站拥有和你的网站重复的内容,对不太完善的原创分析算法而言,很有可能将镜像网站当做优质站点给予排名,而对被镜像站点进行惩罚或者限制。因此对中小站点来说,在被别人不怀好意的镜像之后,很有可能影响到搜索引擎端的流量占比。
虽然对于高权重网站而言,不会被镜像站点抢夺搜索端流量,但却很可能造成网站用户分不清哪个是李逵哪个是李鬼,或者把用户引流到灰色行业网站造成品牌形象受损。
如何及时发现网站被镜像
一般网站都添加了统计工具,因此可以通过分析相关数据发现受访域名异常,但现在的网站镜像工具很容易替换或者删除统计代码,因此这种方法并不能发现所有的镜像网站。因此站长可通过搜索网页中的特征句,比如网站品牌词或者首页标题等,但考虑到这类词被替换的可能性很大,更建议选择页面中的品牌广告语,而非文章内容中的句子(大都为采集站)。虽然没有一种方法可以做到查无遗漏,但是可以尝试多种方法进行检测,以便能及时发现网站是否被镜像。
网站被镜像后如何处理
网上可以看到不少网站被镜像的处理方法,但由于内容比较久远且镜像工具的更新升级,很多方法已经无法做到有效处理了。比如将网页中的链接改为绝对地址,然而面对可以自动替换网站的镜像工具,无论是绝对地址还是相对地址没啥差别。
网站被镜像后的处理原则就是,阻止镜像站点对网站内容进行同步。可以考虑添加JS代码检测页面是否在自己的域名下受访,这样自己的网站可正常显示内容,而非自己域名(镜像网站)被访问时强迫跳转回自己的网站。这样虽然能挽回用户体验,但搜索引擎并不会执行该JS代码,还是会抓取镜像站点内容。
最有效的处理办法就是对镜像网站的来访IP进行屏蔽,通过服务器端设置IP黑名单阻断对网站的实时同步。但需要注意的是用来抓取的IP可能不是域名IP而是CDN或者虚拟IP,因此需要通过查看分析网站日志筛选可疑IP。熟悉程序的站长可以编写脚本放到自己的网站根目录中,该脚本的功能用于显示IP,切换到镜像站域名访问该脚本即可得到镜像站IP。
发现镜像网站除过阻止其对网站的实时同步之外,还可以向搜索引擎提交问题,或者向域名注册商以及主机服务商投诉。优秀的SEOer不仅需要熟悉搜索引擎算法,以及常规的SEO操作,同时还需要涉及网站安全以及数据统计网站日志的分析,不断提升对网站及搜索引擎的认识。