百度算法规则
曾几何时,我从来不相信百度的算法有那样的神奇,但是百度确针对这一系列的算法做出了公告与K站降权的举动,不得不让我仔细分析百度算法的原理,以下几个算法仅为笔者个人推测。
百度绿萝算法:我一直不相信百度绿萝算法竟然可以算出来你的链接是否购买的,但是实际百度却做到了,其中主要原理还是根据一个网站对另一个网站的链接判断,是否有反向链接、链接个数来进行判断。
百度石榴算法:石榴算法主要打击的对象为低质量页面,其中百度蜘蛛主要是根据网站html代码来抓取的,并且搜索引擎根据文章的标签(包含排版)、重复读来进行判断网站的质量。
百度星火计划:星火计划的原计划是为了打击抄袭者,其星火计划的原理非常简单了,也就是判断重复读来决定网站是否抄袭,同时百度蜘蛛也肯定了自己的抓取程序,目前正在往每一个网站时刻爬取靠拢。
百度瑞丽算法:2015年元旦,百度内部相关程序出现了一些故障,导致国内大量的CN和CC域名站点被K,而不少人预测这是瑞丽算法上线的结果。不过从种种迹象推测,瑞丽算法应该是一种误传。
收录规则
要想有排名的前提下是收录,要向收录的前提下是有内容,所以很多网站内容太单一是很难被收录,但也有网站明显有内容就是不收录的,我是这样理解收录的。
抓取:百度收录一个网站或页面的前提是网站被百度抓取过,也就是百度的机器来过你的站点,来你站点的前提是有一个入口,百度的入口有三个,第一自己提交、第二SEO外链、第三浏览器。浏览器大家可能不是很明白,当你的网站刚刚建立后,没有人知道你的建站建立好了,自然百度也不会知道,唯一知道的就是你自己了,如果你使用百度浏览器打开你的网站,这也就意味着,百度浏览器已经知道了这个站点的存在,数据也就交给了百度搜索引擎,从而达到了抓取的效果。光抓取还是不够的,不一定所有的内容都会被百度收录,所以他们收录也是要判断内容标准。
识别:抓取了一个页面,肯定是有内容的,如果说没有内容是很难被收录的,什么是没有内容的页面呢,比如登录注册页面,这类页面是属于有内容没有意义的页面。直接会被列入到空白页面,想这类页面,我们的网站还是非常多的,比如:关于我们、联系我们之类的页面。
所以页面肯定得有内容,并且是可识别的内容,什么叫可识别的内容,就是文字内容,百度搜索引擎是机器在识别,当遇到视频、图片、flash的时候,他们不知道视频、图片里面展现的内容是什么,所以无法识别,所以前期最好还是以文字为主。
释放:最终才考虑到释放出来,如果释放出来后,这个时候你可以通过百度搜索你的URL,释放你的页面也是需要有条件的。
首先会判断你的页面站外推荐很多,这也就意味着这个页面是高质量的页面才会被站外推荐,容易被收录,其次是被站内推荐,这也意味着是这个页面是高质量页面才会被站内推荐。说白了,要向释放出来的内容,绝对是高质量的内容,除非发生了下面这种情况。
最容易被收录的内容绝对是互联网新闻源最多的内容,说白了就是抄袭者很多的内容是最容易被收录的。这个时候太多人不容易理解了,抄袭越多越容易被收录
新闻内容是具有时效性的,当一篇新闻发布以后,马上就有很多媒体转载你的内容,而百度机器识别出来,很多新闻源有同样的内容,也就被列入了新闻的话题页面,从而这方面的内容收录也就非常简单了,不会等一天或几天后才收录,如果过几天才收录,这个新闻内容已经过时了,自然也就影响了百度的体验。
排名规则
参与排名的规则并没有想象中那么复杂,自认为有一定的价值,其实无非就几个方面解决排名问题。
得分规则:得分规则是根据一个网站的总体信誉度,比如网站的原创度、网站的停留时间、网站的跳出率、网站的打开速度、网站图片的处理、网站代码的优化等综合判断,总体被称为得分规则。
点击规则:当你网站信誉度达到一个基础标准后,你网站会出现一些非常长尾的关键词,可能关键词排名并没有在首页,这个时候就是根据点击率的规则来计算排名的。如下图所示,当一个关键词展现量和点击率达到一个比例后,你的排名就会上前一个等级。而这个比例是根据用户的点击来计算的,并非百度定义的,比如搜索“翻墙”这个关键词,排名第二的网页比第一的点击率还高,自然排名第二的页面会会给他排名第一。
链接规则:当你的一篇文章被站外链接过多推荐,这意味着这篇文章价值非常大,不然对方不会推荐,另外也被站内推荐多次,这也意味着这篇文章价值非常大,所以链接的规则就非常简单的,但是由于百度绿萝算法一直在打击垃圾外链,所以在链接上,最好还是自然链接比较安全。