记得互联网刚进入中国时,央视有一栏目是叫做互联网生存大赛,就是把一档子人关起来,只有互联网,看谁能通过它买到自己想要的东西生存下来。当时觉得真不容易,这些人必定是高手。当时就说这是未来的人生活的常态,足不出户就可以利用互联网活下来。现在看来,其实更有趣的是把人们远离互联网,看他们能否活下来。 进入主题,近段时间9月底与10月前 许多站长经历堪比过山车般的持起彼伏,在9月23日的时候,百度来了一波大更新,许多新站终于是跳出一大部分收录。而正当以为可以高兴的迎接国庆的时候,一大波网站被百度进行惩罚。百度的动作是越来越猜不透了。
百度大更新蜘蛛抓取痕迹
一大波被百度惩罚的网站正悄悄来袭 网站日志作为站长每日必看的东西,如果是简单的查看网站蜘蛛的抓取,这些借助爱站的工具包就能看出网站是否受蜘蛛欢迎了,但是如果要对日志进行详细的分析,还是的老老实实的查看日志文件。而最近用爱站工具查看蜘蛛概要分析的时候,发现百度蜘蛛总停留时间几乎为0,而百度蜘蛛访问次数以及总抓取量却正常,接下来我们一起研究下这个问题:
百度抓取总停留时间 每当网站有啥病痛的时候,最着急的就是站长了,感觉这时候谁都靠不住,只能自己去琢磨了。这时候没别的办法,只能先去查看网络日志。不看不知道,一看吓一跳,发现返回的404错误多的几乎能上天。
看到这里的时候,几乎吓了一跳,哪里跑出来的错误页面,既然有几万条。等接着往下看的时候发现几乎都是同一IP抓取的,到底是何方神圣,能集中的那么厉害。慢慢发现看的时候发现一些baidu的字眼,看到百度就好办了,先看一下这个IP是不是百度爬虫的,发现之后好像是百度云观测的爬虫。
然后往回想一下之前在百度站长平台使用过网站体检,发现体验度太低之后,去百度云观测设置网站保护,估计是因为这个原因。而返回这些错误的404页面基本都是不存在的页面,而结合百度云观测可以知道,这应该是百度云观测的测试蜘蛛,测试网站的安全性,它模仿木马的攻击去抓取网站链接,返回404证明攻击不成功。而大量的404返回会照成百度蜘蛛的误判,我们知道蜘蛛兑404是很反感的,所以接触一些之后就马上回头,照成这次的停留时间基本0。 好了,困扰在心头的结终于打开了,各位别看好像很轻松的就解决了,其中的辛苦想必只有自己知道,而单纯解决这个问题都耗费了几天时间,因为不是每次对网站操作过的事情都能像电影一样过一遍。而这也正是有趣的地方,除了是有涉及违规的网站外,正常的网站出现问题如何解决是对一个站长的挑战,而如何处理这份挑战就变的相当的有趣了。 (责任编辑:admin) |