“从谷歌网站管理员工具中删除网址,或者使用robots文件屏蔽蜘蛛抓取某类型链接,那么谷歌便会自然而然地将这些内容从索引库中删除”,想必有不少人都这么认为的吧,包括我,但其实这是不完全正确的。 首先,谷歌管理员删除网址工具主要是用来删除两类型网址:一种是404错误网址,另一种是蜘蛛在日志文件中大量爬取的无效地址(网站内部链接、带参数链接等)。当我们对这两种地址提交删除后,可能在搜索结果中不再显示这两种类型地址。但在搜索引擎索引库中,对于有明确的HTTP返回码为404 Not Found的页面,是不再存在索引库中的;而对于第二种蜘蛛大量爬取的无效地址,实际上是仍然存在索引库中的。 其次,使用robots文件屏蔽蜘蛛抓取某类型链接,是可以阻止谷歌索引这些链接,不过得看你是在谷歌索引这些链接前使用robots文件屏蔽,还是说在谷歌索引这些链接之后才使用robots文件屏蔽,这两种操作方式的效果是不同的。对于第一种,在谷歌索引这些链接前就使用robots文件屏蔽了你不希望被抓取的链接,那么这部分链接既然都不会被抓取,更不用说会被收录到谷歌索引库了;对于第二种,在谷歌索引这些链接之后才使用robots文件屏蔽某类型链接,那么这类型链接还是会存在谷歌索引库中的,只不过是蜘蛛不会再爬取这些链接,在搜索结果中也不会展示这些链接,同时也可以让蜘蛛在有限的爬取量内去抓取更多有意义的链接。 通过以上的介绍,无非是想说明,从谷歌索引库中移除内容和从搜索结果中移除内容,是两个不同的概念;从索引库中移除的内容是肯定不会展示在搜索结果中,但从搜索结果中移除的内容,可能还是会存在索引库中的,这会影响到我们对网站索引量的有效统计。 因此,要想从谷歌索引库中移除内容,那么这些内容链接得能被蜘蛛爬取,同时这些内容链接不能被robots文件所屏蔽,可以通过以下3种途径进行处理: (1) 元标记 可以在页面<head>代码中添加 <meta name="robots" content="noindex,follow"> 防止页面被编入索引 (2)404或410标记 404——没有发现文件、查询或URL 410——服务器上不再有此资源且无进一步的参考地址 这两个标记通常被认为是一样的,只不过仍存在细微差别:410标记一般就没再次抓取的必要了,因此标记410的链接会比标记404的链接从谷歌索引库中移除内容的速度会快些。实际上这两者的细微区别并不重要,但如果你有能力使用好410标记,那也是个不错的选择。 当蜘蛛爬取到404/410错误链接时,会在网站日志和管理员工具中的抓取错误部分体现出来,这时你便可以通过删除网址工具予以删除,且那些删除的内容也不会被编入索引。 (3)301重定向或其它方式 301重定向对于从谷歌索引库中移除内容,也是个不错的选择,并且能传递大部分旧链接的权重到新链接上。不过,这个过程比较长些,且对于经过多长时间能够将旧链接的权重传到到新链接上、传递权重的比例能占到多少等,这些Google并未作明确说明。 以上内容均是笔者的个人见解,如果有不对的地方,欢迎进行斧正或讨论。 (责任编辑:admin) |