我站平安的度过了8月的K站风波,然而却在本月不幸中招,终于被K。 近两个月百度的算法调整误伤了很多高质量的网站。但我们依然认为这只是百度的暂时调整,相信百度会认真对待每一个站,只要坚持提供高质量内容得到用户认可,迟早有一天会恢复收录并取得更好的排名。 经过我详细的研究,详细研究各站长工具提供的数据,并分析百度蜘蛛访问日志等,发现本次被K事件的主因是由于网站大规模改版导致的文件丢失导致的大量死链后本站对错误页面的404返回码处理环节出现了重大问题。次要原因是被某些被黑客入侵篡改的高权重网站的外链指向,以及很久前被黑客入侵的遗留影响。 本次改版后服务器使用新的服务器系统,可提供更大的网站访问承载量,但由于对新服务器系统的部分功能不熟悉,导致配置完成后,输入错误页面后虽能正常跳转404页面,但返回200状态码。 详细技术细节解析: 1.本次被K事件开始的最初时间可追溯至10月17日(上周三),经过我们对百度站长平台抓取压力反馈工具的分析,百度在10月17日对白银投资的抓取量为0,为本次K站的开端,但随后第二天蜘蛛抓取量便恢复,并逐步大幅增加,截止目前蜘蛛每日抓取频率已突破6000次,这也是初步恢复的表现。
2.然后的动静可在百度统计中看到,10月18日其实已经被K,百度统计后台的索引量由50234个页面降到小于10,但当时SITE网站显示的页面收录量依然为37300个页面,以及关键词排名依然正常。
3.经过站长工具的网站历史数据可以看到,10月19日开始,百度前台展示的收录量开始迅速下降,但依然有收录,甚至还有三条新收录页面。但经过3天的过程,收录迅速降低,至10月21日,网站仅剩188条收录。
4.网站正式被K是发生在本周一,也就是10月22日。当天收录降为0,但当天仍然时不时的可以SITE出部分收录网页。 随后我们分析了网站的日志文件。发现蜘蛛在10月22日当天的访问非常异常,页面抓取的竟然全都是错误页面,而且抓取一些游戏外挂的敏感关键词。
访问日志如上所述,经过我们的观察,百度蜘蛛访问的路径全部都是以前网站改版前的页面,由于改版我们只保留了部分生成的静态页面,造成多数多数无法访问,让我们更疑惑的是有一些根本不存在的目录文件、某游戏下载等、被百度蜘蛛访问。 经过我们详细的查看,在网页上打开该路径,返回404错误页面,在服务器端文件系统中也没有找到该路径。 这些游戏的关键词超链接地址本不应该存在,更没有外链指向,唯一的可能是存刷百度关键词或者某高权重网站被黑客入侵挂了带有该锚文本的外链,从而引来蜘蛛访问本站该路径。对于这种外部的问题我们束手无策,只能提醒广大站长更多的注意网站安全问题。 我们仔细的检查了模拟客户端访问的网页HTTP返回码,发现了问题的核心是这种错误访问,本应该返回404代码,让百度直接过滤。但在百度蜘蛛抓取的过程中,竟然返回200代码。 于是我们详细检查了服务器的问题,确认了我们的404错误配置存在问题,任意错误的访问虽然能够给出错误页面,但返回代码是200,我们在第一时间予以修正。 随后经过我们的修改,第二天百度蜘蛛返回的状态码全部都是404,相信很快百度会重新扫描本站全部文件,从数据库中逐渐去除乱序文件,收集抓取的正常网站文件,逐步放出沙盒。
经过几天后,百度蜘蛛大量访问,大量抓取。但大多是123.125.68段的百度降权蜘蛛或者123.125.68段的低权重抓取,抓取的错误页面偏多。偶尔有正常页面被抓取。 在今日终于出现了220.181.108段的高权重蜘蛛抓取首页。根据网友的经验,该蜘蛛访问后几天内会被放出收录,不知道对于被K的网站有没有作用,期待尽快恢复。 本文由黄金小说网原创。 最后提醒大家,做网站一定要注意服务器各种配置,特别是404错误页面的返回码,一个稍不留神就会造成百度被K的严重后果。 (责任编辑:admin) |