湖南中科长乐科技商务服务有限公司湖南中科长乐科技商务服务有限公司

服务韧性工程(SRE)论坛演讲实录丨中国移动:混沌工程与SRE的结合

在2024第二届服务韧性工程(SRE)论坛上,中国移动信息技术中心技术专家晁元宁分享了混沌工程与SRE结合的实践经验,介绍了中国移动CMChaos平台如何通过创新实践解决企业痛点,提升系统可靠性和运维效率。

  • 论坛背景与主题

    2024年5月24日,第二届服务韧性工程(SRE)论坛在杭州举办,由中关村人才协会指导,中国移动通信集团浙江有限公司和SRE创新联合体联合主办。

    会议聚焦数字经济时代下,如何通过技术创新和最佳实践提升企业的服务韧性和运维效率,探讨SRE与人工智能的最新发展及未来趋势。

    企业数字化转型中,确保技术系统的可靠性和稳定性是核心挑战,混沌工程与服务韧性工程(SRE)的结合成为关键解决方案。

  • SRE框架与混沌工程的核心价值

    SRE框架:由谷歌提出,通过软件工程技术优化运维,核心要素包括服务级别目标(SLO/SLA)、监控与报警、自动化工具、故障管理、应急响应及持续改进文化。其目标是实现系统高可用性和快速响应能力。

    混沌工程:通过主动在生产环境中引入故障,测试系统弹性,发现并改进潜在薄弱环节。其本质是受控的模拟危机,帮助开发人员提升代码弹性,增强紧急情况下的服务能力。

  • 企业实施SRE的痛点与挑战

    战略规划:在快速变化的技术环境中制定有效运维策略。

    资源分配:平衡有限资源与业务增长需求。

    团队协作:跨团队高效协同应对运维挑战。

    风险管理:识别并缓解潜在技术风险。

    文化变革:培养持续改进和学习的组织文化。

  • 中国移动CMChaos平台的解决方案

    平台架构与功能

    采用微服务部署架构,确保高可用性和稳定性。

    支持主机、应用、网络、存储、安全、信创兼容及中间件等多类复杂演练场景。

    提供从基础层到应用层的故障注入能力,快速构建高可用模拟演练场景。

    工作过程

    定义目标与指标:明确实验目的和关键指标。

    选择混沌工具:根据场景选择合适的故障注入工具。

    实施混沌实验:在生产环境中模拟故障。

    结果分析:评估系统表现,识别薄弱环节。

    培养混沌工程文化:推动团队接受并应用混沌工程。

    扩展应用:将混沌工程融入日常运维流程。

    SRE创新应用

    通过自动化故障注入和实时监控,验证并提升系统弹性。

    确保突发故障和高负载下系统快速恢复,满足服务级别目标(SLO)。

    推动持续改进和跨团队协作,形成闭环优化机制。

  • CMChaos平台的实践亮点

    混沌工程演练:支持多样化故障场景模拟,如网络延迟、服务宕机等。

    混沌可视化:实时展示系统状态和故障传播路径。

    监控信息集成:与现有监控系统无缝对接,提供全面数据支持。

    个性化脚本设计:允许用户自定义故障注入逻辑。

    实验记录与报告:自动生成实验报告,便于复盘和改进。

  • CMChaos平台的优势

    体系化建设解决方案

    提供服务全生命周期支持,包括专业服务、行业解决方案、上云迁移和安全加固。

    拥有1000+实践场景和300+原子事件,覆盖多种业务需求。

    专家经验库和应急演练管理功能,助力企业快速响应突发事件。

    业务线流程服务链

    支持从架构设计到生产发布的全流程,涉及编码、需求分析、测试环境部署等环节。

    为研发、运维、测试等角色提供定制化工具,确保系统稳定性和兼容性。

  • 总结与展望

    中国移动通过混沌工程与SRE的结合,构建了全面的系统可靠性解决方案,显著提升了系统弹性和运维效率。

    CMChaos平台不仅解决了企业在数字化转型中的核心痛点,还推动了团队协作和文化变革。

    随着技术演进和企业需求变化,CMChaos平台将持续创新,引领混沌工程和SRE实践的发展,助力企业在复杂环境中保持竞争力。

赞(392)
未经允许不得转载:>湖南中科长乐科技商务服务有限公司 » 服务韧性工程(SRE)论坛演讲实录丨中国移动:混沌工程与SRE的结合