第一站 - 轻松上网从此开始!

上网第一站

当前位置: > 运营 >

携程网实践案例分享:利用HTML5监控网站性能(2)

时间:2013-01-24 17:00来源:网络 作者:yangyang 点击: 我来投稿获取授权
以下内容来自网络或网友投稿,www.swdyz.com不承担连带责任,如有侵权问题请联系我删除。投稿如果是首发请注明‘第一站首发’。如果你对本站有什么好的要求或建议。那么都非常感谢你能-联系我|版权认领
Collector 服务是由性能卓越的Nginx集群来担任的。为了最大程度降低客户端回传数据时的资源占用,Nginx采取只记日志,不做任何处理的办法。这样客户端回

  Collector 服务是由性能卓越的Nginx集群来担任的。为了最大程度降低客户端回传数据时的资源占用,Nginx采取只记日志,不做任何处理的办法。这样客户端回传 数据可以快速完成并关闭连接,使之对用户体验的影响降至最小。而Nginx(包括Apache等)的常用访问日志格式中都含有GET请求的完整URL,我 们回传的性能数据就记录在URL的参数中。

  为了优化Collector集群的负载能力,我们需要对Linux、Nginx等做相应的调优。

  Linux 方面,最大打开文件数是最关键的一个参数。由于常规Web服务器往往运行着PHP、JavaScript等动态脚本,每个请求还涉及数据库操作,它们的并 发能力到1000就不错了。Linux服务器默认配置通常足以满足这个级别的并发数。但我们的场景比较特殊:我们几乎不需要做处理,只记下访问日志即可。 Nginx服务器以并发性能强著称,官方数据表示可以支持10万并发。在Linux系统中,每一个连接,对应的就有一个Socket文件,因此最大并发数 受制于系统对最大打开文件数的限制。除此之外,还有一些网络相关的内核参数也根据应用场景进行了优化。

  Nginx方面,去除了不需要的功能,保留了HttpEmptyGifModule。这个模块对到来的请求仅返回一个1×1像素的GIF图片。由于图片数据只有几个字节,直接保持在内存中,所以它可以以极快的速度对客户端请求做出响应。

  location = /_.gif { empty_gif;}

  如上配置的效果是,访问将得到一个只有一像素的GIF图片,其响应速度非常快。

  读取 Log / 发送至队列

  一 个专门负责日志传送的Agent会通过类似tail的机制跟踪日志内容,实时地将新增日志条目发送至消息队列,以备后续处理。这部分的意义在于:第一,它 将集群中分散的日志统一发送到了一处,是一个日志的聚合过程;第二,将分析程序与Nginx服务器解耦开来,最大化保障Nginx集群的高可用性,也最大 化保障了RAW Data的可用性。

  从队列中取出 / Storm集群实时分析

  后端数据分析程序采用了分布式实时流数据处理框架Storm。基于该框架进行处理,一来面对搜集到的海量数据,可以横向扩展处理能力,二来实时流式的运算延迟很小,可以实时获取页面性能信息,使及时的预警成为可能。

  Storm把数据处理抽象成由一个个逻辑单元组成的拓扑结构(如图3)。每个逻辑单元由运算和输入输出组成,按照Storm的术语,这些逻辑单元有两大类:Spout和Bolt,其中Spout是数据的源头。

  

 

  图3 Storm运算拓扑结构示意图(引用自Storm官方网站)

  这些拓扑结构,将被分散到集群中的各个物理节点上,从而进行分布式的高效运算,可以迅速处理大量数据。

  我们在Storm集群上所做的事情,包括浏览器、操作系统、地理位置等的分析,分析后的数据,直接支持按地区、运营商、系统平台、浏览器类型,以及指定具体的页面等条件任意查询和报表。

  产生实时报表 / 预警邮件 / 预警短信

  借助于Storm框架的强大实时处理能力,对日志的分析可以迅速产生实时报表。此外通过与历史数据的参照对比,还可以就性能数据中的异常信息给予预警,包括发送预警邮件和预警短信等。

  实时报表直接在内存中处理,借助Storm的DRPC(Distributed Remote Procedure Call)(如图4),也即分布式远过程调用,可以把缓存在各个运算节点中的最近数据直接聚合起来生成报表。

  

 

  图4 Storm Distributed RPC示意图(引用自Storm官方网站)

  通过一些规则判断,我们对实时数据流进行一些预警操作。预警事件触发后,相关信息作为一个事件发往报警系统。报警系统根据配置,向相关人员发送预警邮件或短信。

  日、周、季、年汇总

  在Storm输出数据的基础上,定时按日、周、季、年进行汇总。对于汇总数据可以方便地进行历史数据查询,为实时预警、长期性能评估等提供参考。同时以不同粒度进行旧数据的汇总,可以逐步丢弃过时的庞大明细数据,减轻数据库的压力。

  还有什么我们可以做的?

  整个环境搭建需要不少的人力物力,很多人可能会对其价值怀疑。在这里,我想告诉大家,客户端的数据收集是非常值得投入的。除了以上提到的页面访问的时间点数据采集外,其实我们还有很多地方可以复用。

  例如客户端的JavaScript错误采集,使用try catch和onerror的组合,收集客户端的错误信息。在携程,我们也把这类数据归为网站的性能数据,JavaScript错误会直接影响用户对网站 的印象,同时会影响用户在网站的消费,直接关系到利润,不可忽视。

  又例如,通过用户行为数据采集,可以获得页面的基本访问信息。用户访问流、用户在页面上的所有操作,都可以帮助改进现有产品,如果条件允许,配合A/B测试,对于新产品的研发也能提供很多有价值的参考。

  因此,大家可以凭借想象力,扩展思路,获得更多有意义的信息,完成更多有意义的研究。

  (本文三位作者均来自携程旅行网)

  本文选自《程序员》杂志2013年1期,未经允许不得转载。如需转载请联系 market@csdn.net

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发布者资料
第一站编辑 查看详细资料 发送留言 加为好友 用户等级:注册会员 注册时间:2012-05-22 19:05 最后登录:2014-08-08 03:08
栏目列表
推荐内容
分享按鈕