对症下药：了解搜索引擎工作原理，再做SEO！(上)

　　你知道“百度”这个搜索引擎是怎么工作的吗?你有过这样的疑惑吗,同样网站主题，为什么在百度上他的排名在我前面?其实都是百度的排序算法左右着我们的网站排名。那好，我们只要摸清楚百度是如何给我们这些网站排名的话，我们就能对症下药把我们网站优化成它喜欢的网站，排名自然就上去喽!

　　其实，搜索引擎的工作过程大体上可分为三个阶段：

　　一、爬行和抓取--搜索引擎蜘蛛通过跟踪链接访问网页，获得页面HTML代码存入数据库。

　　二、预处理--索引程序对抓取来的页面数据进行文字提取，中文分词，索引等处理，以备排名程序调用。

　　三：排名--用户输入关键词后，排名程序调用索引库数据，计算相关性，然后按一定格式生成搜索结果页面。

　　那么问题来了!我们知道，要想让我们的网站让百度收录到它的数据库中，就必须让百度蜘蛛在茫茫的互联网中发现我们，蜘蛛的工作原理是顺着网站的链接地址进行爬行抓取页面信息，单从理论上来说蜘蛛可以爬行和抓取互联网上所有页面，但是实际上不能，也不会这么做，在这种前提下，蜘蛛所要做的就是尽量抓取重要页面。所以，我们SEO人员要想让自己的更多页面被收录，就要想方设法吸引蜘蛛来抓取。

　　被搜索引擎认为符合重要页面的几个因素：

　　1、网站和页面权重

　　2、页面更新度

　　3、导入链接

　　4、与首页点击距离

　　我们只有让我们的网站向上面这4条信息靠拢，才会被蜘蛛发现并收录到数据库中。好了，当我们的网站信息被百度收录后接下来就可以分为以下几个步骤：

　　1、预处理。在一些SEO材料中，“预处理”也被简称为“索引”，因为索引是预处理最主要的步骤。我们知道在百度数据库中收录的并不是现成的页面，而是“HTML”标签源代码，搜索引擎预处理的工作内容首先除去HTML代码后，剩下的用于排名的文字只是一行。

　　除了可见文字，搜索引擎也会提取出一些特殊的包含文字信息的代码，如：META标签中的文字，图片替代文字，Flash文件中的替代文字，链接锚文字等。

　　2、中文分词(这是中文搜索引擎所独有的，谁让我们的文化博大精深呢，没办法，就是任性!)。中文分词方法基本上有两种： 1、基于词典匹配--将待分析的一段汉字与一个事先造好的词典中的词条进行匹配，在待分析汉字串中扫描到词典中已有的词条则匹配成功，或者说切分出一个单词。 2、基于统计--指的是分析大量文字样本，计算出字与字相邻出现的统计概率，几个字相邻出现越多，就越可能形成一个单词。

　　3、去停止词。停止词--无论是英文还是中文，页面内容中都会出现频率很高，却对内容没有任何影响的词，如“的”、“地”、“得”之类的助词，“啊”、“哈”、“呀”之类的感叹词，“从而”、“以”、“却”之类的副词或介词，这些词被称为停止词。因为这些停止词对页面的主要意思没什么影响，所以搜索引擎索引页面之前会去掉停止词，使索引数据主题更为突出，减少无谓的计算量。

　　4、消除噪声。所谓噪声，就是除了停止词以外，对页面主题没有什么贡献的因素，比如：博客页面的“文章分类”、“历史存档”等。

　　消噪的基本方法：根据HTML标签对页面分块，区分出页头，导航，正文，页脚，关高等区域，在网站上大量重复出现的区块旺旺属于噪声。对页面进行消噪后，剩下的才是页面主题内容。

　　5、去重。搜索引擎在进行索引前还需要识别和删除重复内容，这个过程就称为“去重”。其意义在于提升用户体验(搜索引擎不喜欢重复性内容)。

　　去重方法： “去重”的基本方法是对页面特征关键词计算指纹，也就是说从页面主题内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词)，然后计算这些关键词的数字指纹。

　　6、正向索引。正向索引也可以简称为索引，搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。并由文件ID映射着其关键词内容，一一对应。

　　7、倒排索引。正向索引还不能用于排名，最终用于排名的是倒排索引。所以搜索引擎会将正向索引数据库重新构造为倒排索引，把文件对应到关键词的映射转换为关键词的文件的映射。

　　8、链接关系计算。链接关系计算也是预处理中很重要的一部分。搜索引擎在抓取页面内容后，必须事前计算出：页面上有哪些链接指向哪些其他页面每个页面有哪些导入链接链接使用了什么锚文字这些复杂的链接指向关系形成了网站和页面的链接权重。

　　9、特殊文件处理。

(责任编辑：admin)

搜索

热门标签:

对症下药：了解搜索引擎工作原理，再做SEO！(上)