第一站 - 轻松上网从此开始!

上网第一站

当前位置: > SEO >

搜索引擎基础算法如何确定返回结果之算法分析

时间:2012-08-22 10:42来源:网络 作者:thebaiduseo 点击: 我来投稿获取授权
以下内容来自网络或网友投稿,www.swdyz.com不承担连带责任,如有侵权问题请联系我删除。投稿如果是首发请注明‘第一站首发’。如果你对本站有什么好的要求或建议。那么都非常感谢你能-联系我|版权认领
搜索引擎是否试图最佳匹配输入查询返回页面?如果你意识到这一点,你就会明白,为什么谷歌和其他搜索引擎会使用一个复杂的算法来确定什么结果他们应该返回?在该

  搜索引擎是否试图最佳匹配输入查询返回页面?如果你意识到这一点,你就会明白,为什么谷歌和其他搜索引擎会使用一个复杂的算法来确定什么结果他们应该返回?在该算法的因素中包括“硬因素”,比如反响你链接到一个页面的数量,一些通过喜欢和+1功能实现的社会建议。这些通常都是一些外部影响,还有一些页面本身的因素,只有通过分析在线和离线因素可能为谷歌来确定哪些页面是背后问题的查询,对于这个谷歌将不得不分析一个页面上的文本。

  1、TRUE或FALSE(真或假)

  虽然搜索引擎在最近几年的发展中已经非常迅速,但是它依旧只能处理布尔算法。简单来说一个长期被包含的一个文档,一些是真或假,1或0。另外你可以使用运营商的AND,OR和NOT搜索包含多个条件或排除条款的文件。这听起来相当简单,但是它确实存在一些问题。

  假设我们现在有两个文档,其中包含以下文本:Doc1:“我们在纽约的餐厅提供bitterballen croquets服务(And our restaurant in New York serves croquets and bitterballen)”;Doc2:“在荷兰您从墙上检索croquets和frikandellen。(In the Netherlands you retrieve croquets and frikandellen from the wall)”

  如果我们要构建一个搜索引擎,第一步是标记文本。我们希望能够迅速确定哪些文件包含特殊的术语,如果我们都把令牌放在一个数据库,这很容易实现,一个令牌就代表在为本中任何一个单术语。所以有多少令牌在Doc1中包含呢?

  当你开始想回答这个问题的时候,你可能想顶一个一个“术语”。实际上在Doc1中“纽约”应该被认为是一个特殊的单术语。我们怎么能确定这两个单词,实际上是一个超出了本文范围的一个词,所以目前我们威胁每个单独此作为一个单独的令牌。. 所以我们有10个令牌在从Doc1和11令牌在Doc2。为了避免重复的信息在我们的数据库中,我们将存储类型而不是令牌。

  类型是在文本上的单独令牌。在Doc1中包含两个令牌“and”,这里需要说明大小写不易的AND可以算作是两次。在这个例子中我们可以将“and”和“&”作为一个相同的类型存储。

  通过存储在缩句库中的所有烈性的文件,搜索引擎可以找到他们,我们可以在数据库布尔值的帮助下进行搜索。如果搜索“croquets”将会从Doc1和Doc2中返回两个结果,但是如果搜索“croquets和bitterballen”将只返回从Doc1结果。这样的结果会导致一个问题是你可能会获得太多或太少的结果。此外,它缺乏组织能力的结果。如果我们想要提高我们的方法,必须确定我们吗尅一使用其他存在/缺乏一个文档,你会使用页面要素组织结果。

  2、带索引

  一个相对简单的方法是使用带索引,一个web页面可风味不同的区域。想到一个标题,描述,作者和内容,通过在文档中添加一个内容,我们可以为每个文档计算出一个简单的评分,这个是搜索引擎用于确定页面主题的方法。

  不同的区域有不同的重量,在搜索引擎的索引中根据这些区域的质量来确定网站在serp中排序。比如,标题(0.4)描述(0.1)内容(0.5),比如我们执行以下搜索查询“croquets和bitterballen”,其中我们有一个文档被索引的值如下表格所示:

 

 

区域 内容 布尔 得分

标题 纽约咖啡馆 0 0

描述 美味的咖啡厅与croquets和bitterballen 1 0.1

内容 我们在纽约的餐厅供应croquets和bitterballen 1 0.5

 

  因为在seo优化某些时候,站长朋友都开始滥用权重分配到描述,这就使得谷歌的身体分割在不同的区域和不同的权重分配到每个区域变得更加重要。

 

  想要很好实现这些是相当困难的,因为在网络中包含具有不同结构的各种文档,但是如果使用XML文档就显得简答的多,它比html文件的结构和标签要丰富的多,这是的分析更加简单。当然在现在和html5中或许谷歌会支持它的一些微格式,但它仍然有它的局限性。例如,如果你知道,谷歌分配更多的重量内的< content >标记和内容在< footer >标签的内容,你将永远不会使用< footer >标签。

  要确定页面的情况下,谷歌将不得将网页分割成快。通过这种方式,谷歌可以判断哪些数据块在页面上是重要的,哪些不是。可以使用的方法是比较文本/代码的比率。如果一个页面中包含更多的文本,html代码中半酣的主业内容在页面快上。如果页面快中包含许多的html代码/链接,有很少的内容,可能是菜单,这就是为什么选择正确的编辑器是非常重要的,因为某些编辑器使用很多不必要的HTML代码。

  文本/代码比率的使用仅仅是一个搜索引擎可以使用的页面划分成块的方法之一。带索引方法的优点是,你可以很简单的计算为每个文档的得分。许多文件的缺点当然是可以得到相同的分数。

  原创文章是是由:站长首发,转载请保留有效的链接地址,谢谢!

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发布者资料
第一站编辑 查看详细资料 发送留言 加为好友 用户等级:注册会员 注册时间:2012-05-22 19:05 最后登录:2014-08-08 03:08
栏目列表
推荐内容
分享按鈕