数据分析系统,是搜索引擎整个工作流程的第二个系统,也就是既搜索引擎蜘蛛抓取系统的后一个系统,搜索引擎的数据分析系统主要用来处理蜘蛛抓取回来的网页,今天呢,小强会给你详细的讲解,搜索引擎的数据分析系统的工作流程及几个重要的知识点。我们刚刚说了,数据分析系统主要是分析蜘蛛抓取回来的内容,那么怎样分析呢?主要涵盖以下几点。 网页结构化 什么是网页结构化呢?我们要知道网页,是由html组成,搜索引擎蜘蛛最后抓取回来的,也都是html的代码页面,简单的说,网页结构化,就是删掉html代码,然后留下其中的内容,如下图,图1是网页结构化之前,图2就是网页结构化之后。
网页结构化之前
网页结构化之后 网页的内容消噪 在网页结构后之后,依然存在着一些搜索引擎不需要的内容,比如说导航栏的菜单文字,底部的版权信息等,这些呢,都是搜索引擎不需要的,搜索引擎只需要内容,那么在这个时候就会对网页结构化之后的内容进行消噪处理,简单的说,消噪就是把内容之外的文字全部删掉,比如菜单上的文字,底部版权的文字等等。 那么搜索引擎的数据分析系统怎么判断哪些是菜单文字哪些是版权信息呢? 其实很简单,就是对比,比如一个内容页,除了内容不一样,其他的内容几乎一样,比如导航,每个页面都有导航,而且文字也一样,版权也是,当然也会根据html的源码去分析。 对页面的查重 对页面的查重其实很好理解,就是搜索引擎蜘蛛在抓取你这个网站所有的页面中,用你这个页面去对比抓取的页面,看看内容是否有重复,如果有,那么就删掉。 分词 分词是什么东西呢?简单的说,就是把一句话切割成N个词语,分词又分为中文分词和英文分词,搜索引擎有一本自己的数据库字典,里边有好多词语,然后对照着字典进行分词;其中还有一点,就是在分词的时候,会把一些无用的字去掉,比如,的、啊等等。 页面对应URL的分析 这个是网页分析系统的最后一个步骤,主要是根据一些外在因素、内在因素对这个页面对应URL的权重值的判断,比如外链、内链等,这个影响到这个页面关键词的排名。 本文地址: (责任编辑:admin) |