2、在爬虫一定的抓取时间内,尽量少花精力放在一些无用的噪音页面上(重复页面,低质量页面,空内容页面,404页面,不排名页面,低转化页面等); 3、爬虫在抓取页面的时候,尽量增加抓取的有效性,而不是重复抓取几篇相同的页面; 4、爬虫不会被繁杂的URL参数所扰,不会进入无休止的爬虫陷阱中; 5、每个页面的下载时间足够的快,这样,可以让爬虫在时间一定的基础上能够更多的抓取页面; 6、爬虫都能够完整的抓到我们想让他抓的页面,不要抓到我们的隐私页面; 7、日志中不要有太多的404,不要有无理由的跳转,不要有很多的500(服务器错误),这样的情况出现; 8、那些更新频繁但是价值很低的页面不要吸引太多的爬虫精力; 9、我们所有的产品,所有的品类,所有一切有用的东西都要被爬虫完整爬到并且快速遍历; 10、能用碰到真正的爬虫,而不是一些模拟爬虫的机器人; 11、爬虫能够完整的下载到我们的robots.txt; 12、爬虫可以根据我们入口的调整,robots.txt的限制引导,JS的设计等按照我们的要求进行爬取; 13、爬虫越多越好。。。对我们的兴趣越大越好,当然,一切是在我们自身信任度和重要度增加的基础上。 (责任编辑:admin) |