前几天和一位朋友聊天,互相交换了下对8月末百度算法更新的一些看法。结束的时候朋友让我帮他分析一下他的新站,网站的问题是快照停留在8月15日,并且快20天百度没有收录新内容。从简单的交谈得知,网站上线2个月,每日坚持更新原创内容和外链。自打百度收录后,文章隔天收录,长尾词排名也不错。但是8月19日快照回档到815后,快照再未更新过。通过分析这个站的整体结构和内容,发现整站结构清晰明了,并没有严重的结构上的问题,文章内容图文并茂,写的也不错,而且长尾词排名确实不错,这对一个新站来说做的很不错。 为什么快照不更新,新内容不再收录?难道是百度自身的问题,还是有其他“肉眼”看不到的症结?这个时候想起了日志分析,有的时候只有透过内在看问题。从朋友处要来了前一天的网站LOG日志,下图是日志分析工具得出来的蜘蛛概要截图。从图上我们可以看到三大主流搜索引擎的蜘蛛访问次数、停留时间和总抓取量等信息。
朋友这个站属于一个新站,外链不多,整个网站的资讯量也不是很大。依据个人的经验分析,蜘蛛单次抓取量(总抓取量÷访问次数)达到80-100已经算是一个非常不错的数字了。缘何网站的新内容不收录? 第二步来到了网站目录的抓取情况。下图是截取了三大主流蜘蛛目录抓取Top3目录的一个截图,从图上我们可以看到图上的archiver目录的抓取量远远超过于其他的网站目录。这个数据让我有点不安心了。
从朋友的网站了解到,这是一个每日归档目录,从图上我们可以看到的是2010年09月05日返回的当日发布内容为空(朋友这个站建站才2个多月)。
通过站长工具可以看到,该URL返回的是200状态码。此时心理大概有个底了,蜘蛛在这个目录的爬行一定遇到了困难。
为了验证自己的判断,通过Editplus打开了LOG文件,不出所料几大蜘蛛在抓取archive目录时陷入了死胡同。
症结找到了,接下来就是如何处理这个问题。由于这个文档归档功能是朋友购买的一款插件,所以朋友还是希望能够保留这个每日归档栏目,毕竟钱花了得用到实处,不求该栏目能带来流量但却是个有益的补充。刚开始考虑通过NOFOLLOW来屏蔽蜘蛛爬取,但是想来想去还是不妥,毕竟已经收录的页面还是给了蜘蛛爬行的余地,又会出现文中所说的死循环。 最后,给了朋友两条建议: 1、 联系插件开发者修复此BUG; 2、 删除整个archive目录返回404状态码,并且在robots中屏蔽archive目录; 整个的诊断过程就是这样。很多时候当我们网站出现问题的时候,请不妨打开你的网站LOG日志,仔细对比并分析里面的数据,将会对你找到问题的所在有很大的帮助。 本文由瘦乐吧减肥药排行榜 原创供稿,欢迎大家转载,转载时请保留此链接,谢谢合作! (责任编辑:admin) |