略析百度蜘蛛爬行

　　这几天一直在搞网站和产品推广，不懂的东西很多很多，但推广的那些事中，很多名词都非常的吸引我。首先是SEO，了解SEO的过程中，碰到了“外部链接”，学习外部链接的时候又偶遇“蜘蛛爬行”，一下子接收了那么多信息，感觉相当神奇，SEO的事也的确不简单。

　　而今天想跟大家谈谈“蜘蛛爬行”这个词。我相信我不是第一个提到它的，因为我是后来者，但我希望我的描述能让更多的人了解这个词，毕竟，很多专业的介绍都相当专业，正因为太专业，而让人觉得无法理解。

　　首先，介绍一下百度收录。网络世界上有很多很多网站，网站中包含了许许多多的网页，不计其数，就像我们人一样，60多亿的人口。那么，有些人在世界上很有影响力的，比如成龙、李小龙、麦克杰逊等等，但像我们这些无名小卒，就那么的卑微了。对世界贡献大的，自然就出了名，那么我可以换句话来说，在网络上“有贡献”的，就会被百度收录，收录的是它的网络地址，被百度收录了，假如收录的威望很多，那你有可能出现在百度搜索的头条，而头条永远是备受关注，正因为这个位置谁都想争，随之便产生了SEO(搜索引擎优化)。

　　然后，收录的内容统一放在一个库里，有条有序，而这个库在网络世界中有一个很好的名字“数据库”，至于数据库的原理我就不多说了，这里大家主要认识到它是以一定格式保存或者记录数据的东西，“蜘蛛爬行“就用到这个东东。再跟大家说一下“蜘蛛”，当然不是我们日常所见的蜘蛛，简单来说它是一个计算机程序，爬行的过程就是实现算法的过程(至于说法，不能简单地理解为日常的算术过程，它的意义相当于一个活动的策划流程)，最近好像百度更改了搜索算法，但具体怎么改还是让大家慢慢去了解吧。

　　“蜘蛛爬行”形象一点，有纵向爬行也有横向爬行，也就是我们计算机专业术语的深度遍历和广度遍历，而遍历的内容就是大大小小的网站或网页，遍历过后蜘蛛主动下载网页，然后将下载回来的网页通过各种程序计算过后才放到检索区，才会形成稳定的排名，然后被百度的收录到数据库里，最后显示在百度网页上。而在这里，百度派出的不止一个“蜘蛛”，而是多个，或者十个，或者百个、千个，更或者万个、几十万个，总之它的数目肯定不少，而派出蜘蛛在这里就是计算机术语：线程。显然多个蜘蛛就是多个线程，多线程执行搜索的效率才会高。多个“蜘蛛”一起搜索，就是一个广度上的搜索，一个“蜘蛛”顺着某一个规则走下去，就是一个深度搜索。而网页的搜索深度优先和广度优先，百度蜘蛛抓页面的时候从起始站点(即种子站点指的是一些门户站点)是广度优先抓取是为了抓取更多的网址，深度优先抓取的目的是为了抓取高质量的网页，这个策略是由调度来计算和分配的，百度蜘蛛只负责抓取，权重优先是指反向连接较多的页面的优先抓取，这也是调度的一种策略，一般情况下网页抓取抓到40%是正常范围，60%算很好，100%是不可能的，当然抓取的越多越好。我在学习了解的过程中，偶遇了一篇介绍蜘蛛爬行的安全性的文章，里面介绍到了蜘蛛一般会优先选择遍历那些网站，会自动躲开那些网络漏洞，免得自己陷进去，这个挺吸引我的，弱弱记得这篇文章里介绍说：优先遍历静态网站，因为动态网站里可能存在死循环，这样蜘蛛进去就出不来了，不过一般蜘蛛搜索的过程会先检测网站的安全性，发现这些毁灭性的动作，就会避开。我想这点值得大家考虑一下在建立动态网站的过程中，一定要严谨自己的程序代码，免得造成网站漏洞，最后没有蜘蛛敢进去。

　　今天就介绍到这里，很多不到之处，望各位多多指正!转载请带上：亚洲陶瓷商城：

(责任编辑：admin)

搜索

热门标签:

略析百度蜘蛛爬行

热评话题