四、关于AJAX AJAX是极为常见的网页技术,根本上说就是在网页显示期间,动态的从互联网上获取一段数据(可能是HTML也可能是其它),经过处理后加以显示。 对于该技术,根本的工作并不在于XMLHttpRequest对象的实现,而是在于对搜索引擎爬虫架构的影响。众所周知,爬虫抓取页面,遍历其链接,再依次抓取的形式设计的,其工作主要集中在调度和控制抓取压力上,抓取器本身较为简单,通常不具备抓取后即时执行JavaScript并抓取AJAX数据的能力,因此需要技术升级方可支持AJAX。 对抓取器的分析超出了本文的范围,有兴趣的读者可以查看其它相关文献。 总结 通过前面的案例分析,我们总结出了实现JavaScript解析所需要的基本工作,此外再增加一定的基础性建设就能构成一套较为完整的系统了。这里我们再次整理一下,将其分为三个部分: 1. 在HTML解析器中嵌入JavaScript语言引擎,语言引擎可以选择V8、SpiderMonkey等成熟的开源方案。 2. 实现所需的功能函数,具体可参考W3C的相关HTML和DOM规范。 3. 作为一个直接推论,需要收录所谓的.js文件,这是JavaScript解析所需要“解析”的源代码。 本文中介绍的功能仅是一部分较为常见的JavaScript功能,要让搜素引擎真正看到实际的页面还需要进一步实现其它需要的功能,此外还需要配合对HTML、CSS、图片等资源的支持。 最后,对于希望使用JavaScript的站长来说,本文给出如下建议: 1. 不要使用过于复杂的JavaScript技术,这不利于搜索引擎的收录 2. 不要阻止对.js文件的收录,否则会限制JavaScript解析的能力 3. 合理的划分站点的静态部分和动态部分 (责任编辑:admin) |