新浪、百度、淘宝以及其他的一些大型互联网系统,在出现故障之后,一般的处理思路、流程和方法是怎么样的( 三 )



关注质量解决的方式主要分为四大方面,如上图所示,我们对于应用依赖的模块做了抽象化,因此,下面两块是通用的;第一块,保证的是我们在IAAS层面或是操作系统层面的质量;第二块,我们所有业务都是跑在中间件上,虽然中间件是用了通用的开源软件,抽象化后依然是云平台;第三块,是关于链路追踪,这在下面会详细解释;第四块,是常规的业务本身的监控,比如,游戏行业有可能会游戏登录、注册、充值。对于IAAS、PaaS层面,主要核心是接入CMDB数据,让Open-Falcon数据和业务关联,实现最开始的监控。
链路跟踪技术的实践
链路跟踪是什么样的技术?我们在质量保证层面分为四块,IAAS、PaaS到业务本身再到链路跟踪,这项技术是基于中间层面的。
新浪、百度、淘宝以及其他的一些大型互联网系统,在出现故障之后,一般的处理思路、流程和方法是怎么样的

在微服务时代,任何一个应用完成时都要通过其他接口共同实现。如上图所示,如果这里是一个登录业务A,用户来登录这个业务时,先调用第三方API、D和E、存储、各自的中间件。用户A在登录的流程中,每一个细节都可以进行链路回放,能够清楚的知道,一个用户A完整的登录过程,以及具体细节。因为链路跟踪技术完成的整个细节,业界关于链路跟踪技术有非常多的实践,但我们在自己实现时,还有很多的困难。
想要完整的实现一个链路跟踪的基础,有哪些问题需要解决呢?
第一个,性能。我们现在是一个用于解决用户质量的辅助功能,在引入这个功能时,最好不要影响到业务,特别是有些业务对消耗性能非常敏感,引入链路跟踪后,为了保证用户质量而影响业务的性能,会不能被接受。第二个,应用无感知。我们现在引入一个新技术,对于质量保证,需要开发来配合。应用不需要知道跟踪系统的存在,也不需要开发二次配合接入。第三个,扩展性。业务随着规模增长,整套链路跟踪系统依然要能够满足对于系统需求的完成。
现在,我们来详细分析基于PHP链路跟踪自实现原地。在Java或是其他语言中,语言本身/社区本身对于链路跟踪技术是比较成熟的,我们可以直接拿来用,但是对于PHP技术,已实现的大部分都是侵入式的,侵入式需要开发配合做代码修改。
在只有维护没有开发的情况下,会出现一些老旧的业务,这会导致无法接入,特别是侵入式,开发团队比较忙或是不愿意接入你的链路跟踪,那么,整个跟踪的实际效果会大打折扣。
新浪、百度、淘宝以及其他的一些大型互联网系统,在出现故障之后,一般的处理思路、流程和方法是怎么样的

上图左边是一个常规的PHP代码,这是Curl函数的实现,右边是真实的Curl扩展的源代码,这个扩展最终是一个C函数,我们想要实现的链路跟踪是访问函数的时候,能够知道代码的顺序、函数的输入/输出以及像调用时间。
基于以上PHP函数的实现以及扩展性基于C语言的实现,我们可以实现到什么?
新浪、百度、淘宝以及其他的一些大型互联网系统,在出现故障之后,一般的处理思路、流程和方法是怎么样的

我们依然调用了PHP的Curl的函数,这个函数本身对它进行替换,依然访问C函数,但函数本身对它做了一个替换,请求该函数的时候,是指请求我自己的函数,自己的函数本身会调用原始函数,对原始函数进行返回,经过简单的封装后,我们能拿到Curl任何一个函数的参数;关于函数的返回值,我们要知道,访问一串代码函数,在一串链路中,可以获取到参数和返回值,在中间插入最终ID。因为参数有请求时间、返回时间,所以基于这样一个更改实现,就可以知道扩展函数调用参数、调用返回值、调动时间,我们可以对这个参数返回时间进行更改,并植入另一个ID。对于这些函数做的更改,在PHP代码中再调用函数时,就可以像一条链路一样从上到下,把整个链路接入。


推荐阅读