第一站 - 轻松上网从此开始!

上网第一站

当前位置: > SEO >

第二课笔记:搜索引擎基础知识和工作原理(3)

时间:2013-01-30 21:00来源:网络 作者:liangyongxin 点击: 我来投稿获取授权
以下内容来自网络或网友投稿,www.swdyz.com不承担连带责任,如有侵权问题请联系我删除。投稿如果是首发请注明‘第一站首发’。如果你对本站有什么好的要求或建议。那么都非常感谢你能-联系我|版权认领
什么是停止词?就是在页面中出现次数比较多的,对内容没有实质性影响的那些词;比如:的,得地这些助词,啊哈呀等感叹词,从而以却等副词或者介词,

  什么是停止词?就是在页面中出现次数比较多的,对内容没有实质性影响的那些词;比如:“的”,“得”“地”这些助词,“啊”“哈”“呀”等感叹词,“从而”“以”“却”等副词或者介词,这些词就被称之为停止词!英文里有:the,a,an,to,of等等

  搜索引擎去停止词主要有两个目的:

  一个是:使索引数据主题更为突出,减少无谓的计算量;

  另一个是:检测你的内容是否和另外数据库中的内容有大量的重复性

  在这里需要提醒各位的是:以后不要随便在网上复制一篇文章加上几个停止词就粘到自己的网站上去了,学完上边的,你应该懂什么意思了!

  4, 去除噪声:

  这里的噪声不是我们所说的噪声,它是特指一种垃圾,即多余的字词!这些字词一般包含在版权声明文字,导航条,广告中!消除噪声是为了使得页面能更好的显示主题内容:

  举例:博客中的“分类目录”“历史存档”等!

  5, 去重(chong)

  什么意思呢?假如一篇同样的文章出现在不同的网站上或者链接 到不同的地址上,搜索引擎就会认为它是一个文件,它并不喜欢这样的重复内容,所以它也不会去抓取的!在进行索引之前就需要对这些内容进行识别和删除重复的内容,就叫“去重”!

  搜索引擎如何去重!技术我们不需要掌握,但是我们得注意几个关键点:

  A:简单的增加“的”“地”“得”,是很容易的被识别的,一定要慎重使用!

  B:复制别人的文章,简单的交换一下段落结构!这种伪原创也一定要慎重使用!

  这是因为:这样的操作无法改变文章的特定关键词,上面的那些做法始终逃不过搜索引擎的去重算法。

  经过上面的五个步骤后,搜索引擎就能得到独特的,能反映页面主要内容的,以词为单位的内容。

  然后搜索引擎程序将上边提取到的关键词通过分词程序来划分好,把每一个网站页面都转化为一个关键词组成的集合!同时记录下每一个关键词在该页面上出现的频率、次数、格式(比如:标题标签、黑体、H标签、锚文本等)位置(第几段),这些都已权重的形式记录在下来!然后放到一个地方,这个地方就是专门放置这些组合词的词表结构——索引库!也交做“词表索引形式”

  什么是正向索引:

  每一个文件夹都对应一个ID,文件内容被表示为一串关键词的集合!在搜索引擎的索引库中,这时候关键词已经别转化成了关键词ID,这样的数据结构叫正向索引!

  给大家画一张图就明白了:

文件ID

内容

文件夹1

关键词1,关键词2,关键词7,关键词10……关键词L

文件夹2

关键词2,关键词7,关键词30……关键词M

文件夹3

关键词2,关键词70,关键词35……关键词N

……

……………………

文件夹7

关键词2,关键词7,……关键词X

……

………………

文件夹X

关键词7,关键词50.,关键词Y

   什么是倒排索引呢?

  因为正向索引不能直接用于排名!比如:用户搜索某一关键词2,如果只从在正向索引,只能找到包含该关键词的文件夹,不能实际的返回排名;这时候就会用到倒排索引了

  在倒排索引中关键词变成了主键,每个关键词对应一系列文件,每一个文件都出现了要搜索的关键词,这样用户在搜索某一个关键词的的时候,排序程序就能在倒排列表中找到这个关键词对应的文件!

  详细请看图:

 

关键词

文件

关键词1

文件1文件2,文件17,文件110……文件L

关键词2

文件2,文件7,文件30……文件B

关键词3

文件2,文件7,文件30……文件U

……

……………………

关键词6

文件21,文件70,文件300……文件K

……

………………

关键词7

文件12,文件27,文件3……文件L

   特殊文件的处理:

  搜索引擎除了抓取HTNL文件还可以抓取以下文件类型:PDF,Word,WPS,PPT,TXT等这些文件,不过注意的是:搜索引擎还不能抓取图片、视频、Flash这类文字内容,也不能执行脚本和程序!所以在SEO的时候,你网站上面尽量少用这些!

  链接关系的计算:

  当搜索引擎抓取了页面后,还必须事先计算出页面上有哪些链接指向哪些页面。每个页面又有哪些导入链接,链接使用的什么锚文字,正是这些复杂的链接指向关系形式形成了网站和页面的链接权重!例如:google的PR值就是这些关系的重要体现,后面详解!

  排名:

  排名过程是与用户互动的过程:是指当用户输入关键词以后,排名程序调用索引数据库里面的数据,计算相关性后按照一定格式生成搜索结果页面!

  1, 搜索词的处理过程

  A:中文分词;前面讲过了

  B:去停止词;前面讲过;

  C:指令处理:搜索引擎的默认处理方式是在关键词之间使用“与”逻辑,比如用户在搜索“网站建设”时,搜索引擎默认为用户想要查找的既包含“网站”也包含“建设”的页面!

  常见的搜索指令有加减号,还有哪些搜索指令?如何使用使用搜索指令,后面会详细拿出一节来详细讲解的!

  D:如果用户输入了明显错的字或者英文单词的时候,搜索引擎会提示用户正确的用字或者拼法!例如:搜索“建站技数”

  E:整合搜索触发!比如搜索明星,会出现图片,视频等内容!适合做热门话题;

  2, 文件匹配如何进行?

  这一部是在倒排索引中能快速的完成:看图

 

关键词

文件

关键词1

文件1文件2,文件17,文件110……文件L

关键词2

文件1,文件7,文件30……文件B

关键词3

文件2,文件7,文件30……文件U

……

……………………

关键词6

文件21,文件70,文件300……文件K

……

………………

关键词7

文件12,文件27,文件3……文件L

   如果用户搜索的一个词,既有关键词2,也有关键词3的话,那么组后就会很精准的找到既包含关键词2,也包含关键词3的文件,然后返回!

  3,初始子集如何选择?

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发布者资料
第一站编辑 查看详细资料 发送留言 加为好友 用户等级:注册会员 注册时间:2012-05-22 19:05 最后登录:2014-08-08 03:08
栏目列表
推荐内容
分享按鈕