在今天举行的第一次全球数据系统稳定性峰会,最后,中国信通院云计算与大数据研究所所长何介绍了中国信通院数据系统稳定工作体系。
何表示,中国信通院于2021年启动稳定性相关工作,依托分布式系统稳定性实验室,面向供给侧机构,监管机构,应用侧机构,形成面向产品,工具,服务提供商,系统,容灾和安全系统等的STAR评估系统,帮助中国各领域的系统稳定保障工作
系统稳定性保障的关键问题突出。
2021年,全球发生了多起严重的信息系统宕机事件,包括互联网基础设施,金融核心业务系统等这些关键系统停机事件不仅造成了大量的经济损失,也影响了社会的稳定运行同时也给其他系统建设运营商和监管机构敲响了警钟,系统稳定性保障成为当前的热点问题
何指出,在中国,国家高度重视确保关键系统的平稳运行《关键信息基础设施安全保护条例》自2021年9月1日起正式实施,其中明确要求关键基础设施运营者按照《条例》和相关法律法规的规定,确保关键信息基础设施安全稳定运行
伴随着数字技术的更新,信息系统的重要性凸显,系统的稳定性面临新的挑战互联网等数字化原生企业为了提升数字化能力,满足用户需求,不断扩大系统规模,引入敏捷开发流程,导致信息系统复杂度急剧上升,稳定性风险点增加在金融,电信等技术密集型行业,系统在线化程度不断提高,新技术不断引入,信息系统的功能范围和复杂程度不断升级政务,能源等传统行业也在政策驱动下,服务方式由原来的5倍转变,离线模式8次升级为7次,24小时在线模式,导致系统稳定压力激增
何表示,当前信息系统稳定保障领域在技术,管理等方面存在不足比如在技术上,伴随着新技术,新架构的应用,出现了异构软硬件兼容的问题,分布式架构集群的扩展导致硬件故障更加常见,通信交互更加不稳定在管理方面,伴随着系统涉及的部门和组织数量的增加,带来了大量的沟通成本,导致稳定性保障的环节更长,跨团队协作难度更大
中国信通院稳步推进相关工作。
根据消息显示,由于旅行卡系统的运行,中国信通院在系统支持方面积累了大量实践经验旅行卡运营近两年,累计查询超过458亿次最最近几天查询量保持在3亿次以上其使用量随全国疫情波动,已成为疫情防控的重要工具
首先,通过优化技术架构,隔离不同接入渠道的业务资源,解耦三大运营商的业务渠道,使各渠道,各运营商的业务互不影响。中国通信标准化协会副理事长兼常务副秘书长代晓慧受邀出席会议并发表演讲。
其次,服务器负载均衡,带宽,数据库等资源得到了数倍的扩展,满足了日益增长的访问请求目前系统的峰值容量比去年增加了10倍以上,通过定期的压力测量可以随时确认系统的容量
第三,旅码建立了备份容灾系统,进行了多次应急演练,可以随时进行主备切换该团队开发了一个全链路监控系统,可以监控所有链路的流量变化为了应对流量高峰,团队设置了紧急情况下的限流机制,以保证系统的不间断服务
最后,旅行卡还建立健全了运维管理体系,形成了日常运维,重点支持,应急响应三位一体的运维保障体系。
何表示,基于上述背景,为帮助提升国内各领域数据系统的稳定性,中国信通院于2020年启动稳定性相关工作,依托分布式系统稳定性实验室,面向供给侧,监管机构,应用侧三大角色,形成了产品稳定性,稳定性支撑工具,服务提供商,系统本身,系统容灾能力,系统稳定体系六大工作主线,统一了星级评估体系。
其中,分布式系统稳定性实验室的定位是搭建行业平台,汇聚系统稳定性利益相关者的智慧,共同定义,梳理,研究和推广系统稳定性相关的工作和成果由中国信通院牵头,自2021年4月成立以来,目前已有50多家成员单位,形成了包括23名技术专家在内的专家组,形成了强大的研究和服务能力通过定期举办技术沙龙,重点关注稳定性相关标准,研究报告和实践指南的编写,实验室不断推进稳定性工作
详细讲解明星评价的六条主线。
会上,何洪堡详细介绍了星级考评体系的六大主线其中,STAR—A是稳定性保障体系评估,STAR—R是系统容灾能力评估,STAR—S是系统压力测试/拨号测试服务,STAR—E是服务提供商能力评估,STAR—T是稳定性保障工具评估,STAR—P是软件产品稳定性测试STAR评估体系完全覆盖了数据系统稳定性相关工作中涉及的各类对象,能够全面衡量各个环节的相关能力
1.稳定性保证体系评价目前系统技术迭代快,架构复杂理论上没有绝对稳定的体系,只有相对完善的保障体系所以这个部门的分工主要是针对如何通过各种保障手段最大限度的保证系统稳定因此,ICT研究所mdash与业界力量联合开发了一个评估系统mdash分布式系统稳定支持能力的分级要求和两种实用方法mdashmdash混沌工程实践指南和系统稳定性支持能力建设指南1.0同时,根据评估标准,开展了第一批数据系统稳定性保障能力评估,首批12个信息系统通过
2.系统灾难恢复能力评估数据故障不可避免,容灾系统可以保持业务系统尽快恢复甚至连续运行,尽可能少的数据丢失它是现代数据系统不可缺少的基础设施为了衡量数据系统的容灾能力,中国信息通信研究院联合业界编制了数据系统容灾能力成熟度模型,从5个能力域,30个能力项全面衡量系统的容灾能力一方面,标准的发布可以为应用端搭建容灾系统提供参考,另一方面,也可以评估已建容灾系统的实际容量
3.STAR—S,为数据系统提供压力测量/刻度盘测量服务系统稳定性的真实情况只有通过合理的测试和持续的监控才能得到因此,围绕如何测量系统的实际稳定性,中国信通院与相关专业技术公司合作,开展各种系统的压力测量/拨码测量服务
4.STAR—E,评估服务提供商提供稳定性保证的能力伴随着维稳工作的日益重要,行业内涌现出许多专门提供维稳保障服务的企业在这方面,中国信通院目前正在制定《系统稳定保障服务商能力分级要求》,对服务流程,人员,技术工具等进行标准化还将依托该标准对行业内提供稳定保障服务的服务商进行评估,引导行业规范化发展
5.稳定性保证工具测试系统稳定性的提高离不开专业技术工具的支持,工具的质量显著影响系统稳定性的保障能力目前,中国信通院已完成标准《支持系统稳定的平台能力要求》,全面梳理了各类平台工具支持系统稳定的能力,并形成了分步分级要求后续将继续完善各种支持工具的标准开发,并开展相应的评估工作
6.数据产品稳定性测试各种数据产品尤其是分布式软件已经成为各行业数据系统的重要组成部分,其自身的稳定性是系统整体稳定的重要前提因此,中国信通院开展了数据产品的稳定性测试为了规范地测试各类数据产品的稳定性,中国信通院自主研发了基于Ansible和ChaosBlade的Databench—C分布式混沌测试平台通过Databench—C可以对被测产品进行稳态测定,扰动注入,差异比较等操作可以注入的故障和干扰类型包括计算,存储,网络,线程等方面的高负载或故障现象最后,通过加扰时其功能是否正常,性能下降程度,扰动消除后系统恢复程度来衡量被测产品的稳定性
基于Databench—C,截至目前,已完成两批四类数据产品的稳定性测试以下是测试的企业和相应的测试产品通过测试结果可以观察到,目前的数据产品多采用分布式架构,网络扰动带来的性能影响明显大于计算和存储对资源的扰动
何洪堡表示,星级评价体系将继续全方位推进,产生更多的标准和研究报告,落地更多的评价,不断拓展服务行业的能力。4月27日,首届;全球数据系统稳定性峰会;以线上线下结合的形式召开。。
据何介绍,未来分布式系统稳定性实验室将从以下几个方面开展工作:一是根据主题成立工作组,聚焦重点方向二是启动人才培养计划,与实验室专家,外部专业技术企业联合开展专项技术培训三是开启全国巡展,继续在更多地区举办活动,为行业提供更全面,更大规模的行业交流平台
。