搜索引擎的工作过程是引擎蜘蛛爬行和抓取、索引和排名。排名,即用户输入关键词后,排名程序调用索引数据库,计算相关性,然后按一定格式生成搜索结果页面。
排名过程是与用户直接互动的
01-搜索词处理:中文分词处理,去除用户搜索中的停止词,指令处理,纠正拼写错误,整合索引出发。
02文件匹配:找出含有所有关键词的文件。
03-初始子集的选择:文件匹配得出的子集还不能直接计算,因为匹配到的文件通常会几十几百上千万,对这么多文件实时计算相关性需要很长时间,根据权重和相关性,百度提供76页大约760个搜索结果,故会先选出权重较高的一个子集。
04-相关性计算:关键词常用程度、词频及密度,关键词位置及型式,关键词距离、链接分析及页面权重。
05-排名过滤及调整:主要过滤是施加惩罚,减少垃圾内容、作弊嫌疑页面,如百度11位,算法。
06-排名显示:经排名程序调用原始页面的标题、描述标签、快照日期等。
07-搜索缓存:用户搜索的关键词有很大一部分是重复的,将最常见的搜索词存入缓存,缩短搜索反应时间。
08-查询及点击日志:记录用户的IP地址、搜索的关联词、搜索时间及点击了哪些页面并存入搜索库。
网站优化技术配合一些搜索引擎高级指令将使得优化工作变得简单,以下是baidu、google支持的高级指令。
SEO高级指令
01-双引号(“”):完全匹配搜索。
02-减号(-):搜索时排除减号后面的内容。如:搜“花 -牡丹”,返回只出现含“花”但不含“牡丹”页面。
04-inurl:搜索结果中内容及其下面的网址含inurl括号里面的内容。如:搜“inurl:腾讯”,返回页面标题、内容及网址至少都含有“腾讯”。
05-intitle:返回的是页面title中包含关键词的页面。如“intitle:魅族”。
06-filetype:找出当前收录在搜索引擎中的文件。如:搜“filetype:pdf”,返回含有pdf文件页面。(百度仅支持搜索ppt、xls、doc、rtf、pdf、txt)
07-domian:后跟完整域名,查询网站被百度收录的反向链接数目。
排名过程是将搜索结果反馈给用户,网站优化配合搜索引擎高级指令将使得优化工作变得简单。