混沌工程平台

经过1年多的运维相关业务梳理、运维自动化系统建设,现在终于要开始再搞点新鲜的东西了,这次准备将混沌工程体系引入现在的公司,基于开源的chaosblade,建设之家混沌工程实践体系,通过可控混沌工程实验,探索并提升之家系统韧性。

立项背景:
随着微服务、云原生相关技术的发展,分布式系统已经运行在之家各处,但因此也带来了复杂度急剧上升、故障发生难以预测后果、难以避免与验证等挑战,而混沌工程正是通过故障注入等方式为切入点,帮助解决以上问题

痛点分析:
1、在生产环境中实际运行分布式系统,难免会有各种不可预料的突发事件发生,云原生的发展,不断推进着微服务的进一步解耦,海量的数据与用户规模也带来了基础设施的大规模分布式演进,分布式系统天生有着各种相互依赖,可以出错的地方数不胜数,处理不好就会导致业务受损,或者是其他各种无法预期的异常行为
2、在复杂的分布式系统中,无法阻止这些故障的发生,我们应该致力于在这些异常行为被触发之前,尽可能多地识别风险,针对性地进行加固、防范,从而避免故障发生时所带来的严重后果

平台设计: