随着全球数字化程度越来越高,各行各业对IT系统的依赖性逐渐增加,运维保障已成为组织运营管理和发展的重要环节,IT业务健康、稳定、连续性运行已经成为组织持续发展的关键基础保障。
近年来,出现了一些因为IT业务问题对企业发展造成负面影响的案例。而就在最近,2024年7月19日,无数台电脑突然在短时间内集中崩溃,原因是微软公司旗下部分应用和服务出现访问延迟、功能不全或蓝屏无法访问。受此影响的涉及美国、日本、澳大利亚、新西兰、印度等很多国家。不仅个人电脑,包括医院、银行、航空、铁路、零售、公共服务等众多关键行业的电脑系统也都出现“蓝屏”无法使用,导致全球性的IT系统故障。
随后微软公司进行了紧急排查,最终确定了故障原因为“CrowdStrike的一次更新导致多个IT系统出现故障。”外媒将此事件称为“史上最大规模的IT故障”,马斯克公开责问微软公司CEO,称这是“史上最大的IT失败”。虽然目前微软公司和CrowdStrike公司已在全力修复,但预计全部恢复正常至少需要数周的时间。事故后CrowdStrike公司美股盘前大跌超18%,微软公司跌超2%。
幸运的是,中国企业的电脑几乎未受影响。但以此案例为鉴,可促改促治,加强警示。当IT系统出现故障或者问题时,不仅仅是对企业的业务造成直接的损失,同时对市场价值、市场影响力、用户满意度等多方面都会造成负面影响。
分析以上事故原因可以看出,IT系统运行仍存在漏洞、日常监控被动或无助、工具仍不能解决问题,那么如何破局以降低IT系统宕机或者可用性、连续性下降的风险呢?
进入云原生时代后,应用的构建部署与运行时基础设施都发生了翻天覆地的变化,技术架构微服务化、运行时环境容器化、业务系统依赖关系复杂化,运行实例生命周期短,规模大;服务自动注册发现,监控也随着实时动态调整。传统的监控管理以及运维思路,以事件驱动的形式观察系统的方式已无法适应当前IT环境运行保障、运营管理的要求。
明易达借鉴参考了我国“中医治未病”的哲学思想,结合西医指标量化管理的思维逻辑,结合多年来在金融、央国企等行业客户的项目经验,创新地研究出了“AI+行业运维知识体系指标”的业务健康分析系统。系统将企业的业务健康分析场景内置,提供图形化的模型调整能力,可快速接入各类采集能力,形成企业专有的分析场景,实现IT系统的“未病先防、未病先治”,从而降低IT宕机风险,保障业务连续性、健康稳定运行。
明易达的业务健康分析系统,可通过数据采集层的日志、链路、指标监控等遥感技术对数据进行采集;通过数据存储层的大数据技术对数据进行加工和治理形成指标关系网络;最终以可视化形式呈现和AI的方式分析数据,帮助用户快速定位数据异常的影响和根因,并提供紧急度、优先级和解决方案等辅助信息。
与业务健康紧密相关的指标数据分别是日志数据(Logging)、链路数据(Tracing)和指标数据(Metric)。明易达业务健康分析系统内置了强大的日志、链路、指标数据采集工具,同时也支持对接用户已有系统的指标数据进行采集。
数据建模:采集后的数据将通过系统围绕资源进行关系数据建模,所有的监控数据,都是对某一个配置实体的描述,同一实体的观测数据,可以通过实体进行关联,例如通过日志上记录的 IP 找到对应的监控指标。IT 系统是各类实体结合起来完成某些特定功能,因此同一类型的实体、不同类型的实体之间或多或少存在着一些关系。
数据接入:支持多类型的数据接入能力,可通过图形化方式对不同类型的数据进行接入和标准化。
观测体系的最上层是应用与展示,是采集数据的基础应用,也是当前企业主要的应用场景。将复杂的数据以图或表的形式展示出来,是面向用户最为直观的呈现,便于运维人员快速了解应用状态,以做出判断或预测。同时可提供低代码的监控图标和UI配置能力。对于监控数据的尝试尽可能多的将日志、链路、指标三者的数据进行关联,使同一个应用不同维度的事件立体化的展示出来。
观测成果和智能化层定义为 AIOps要建设的内容。AIOps是将人工智能和大数据应用于运维的场景,辅助运维实现自动化、智能化,以达到无人值守亦能保证业务服务高效稳定运行的目的。
明易达的业务健康分析系统,通过场景化分析能力的建设,将用户工作重心从原有的、复杂的、高门槛的指标分析工作,转移到解决问题的本身,只需一个门户页面即可完成大部分的隐患处理工作,更高效地提升业务健康度和稳定度。
首页“一张图”,显示关注系统、重要系统或者健康问题排名前五的系统健康情况,同时可以联动每个系统健康问题产生原因,以评分的形式,让用户不需要通过分析各类指标就可以快速定位系统“亚健康”状态。
用户设定健康指标,基于行业知识经验库和AI总结健康影响,进行综合分析形成个性化的指标体系,代替传统模式下用户执行指标分析操作,在众多的异常事件中快速定位风险高和影响大的事件。
将日志、基础监控、APM等告警综合、关联分析,统一展示,帮助用户全面地了解业务的运行概况,快速定位复杂问题,并提供AI分析结果和症状处置建议,简化IT“亚健康”改善修复难度。
系统内置基础设施监控、应用性能监控、日志监控、巡检管理、拨测压测管理等工具,可由专业人员任选进行故障诊断。
相关知识
我国健康服务业发展呈现六大新趋势
健康产业蓬勃发展的四大趋势
大健康产业投资新趋势
未来健康产业趋势
守护血压健康,华为WATCH D引领血压监测与管理新趋势
如何科学控糖, 引领健康生活新趋势?
健康险管理将出“新招” 保险+健康服务将成大趋势
医疗健康领域的可穿戴技术趋势
大健康产业:新趋势新业态
大健康产业包括哪些行业?前景怎么样?大健康产业未来发展趋势
网址: 业务健康管理—领跑IT运维新趋势 https://m.trfsz.com/newsview495809.html