当前位置:首页 > 业界动态 > 正文

为什么停机事件频频发生? 云原生时代,需要什么样的运维保障体系?

美联储支付系统宕机、亚马逊云服务宕机、国内哔哩哔哩等互联网服务平台宕机……近年来,全球各地宕机事件频发,系统稳定性逐渐成为业界关注的焦点。

随着互联网服务深度融入生产生活,软件需要满足多样化需求。 系统扩展、引入新兴技术架构是不可避免的。 信息系统的复杂性迅速增加,这使得系统稳定性的挑战变得越来越困难。 中国信息通信研究院云计算与大数据研究所马鹏伟认为,信息系统稳定性成为业界关注的焦点是必然趋势。

为了帮助各行各业实现更高效的运维,为业务提供全方位的稳定性保障,蚂蚁数字近期发布了商业智能可观测服务BOS。 产品发布会上,蚂蚁数字产品专家马恒阳对传统IT运维的挑战以及商业智能可观测产品的功能进行了全面解读。

蚂蚁集团数字产业部总经理余斌表示:“未来,蚂蚁数字将提供更丰富的产品体系,并联手相关生态伙伴,服务更多企业的数字化转型,让商业智能可观察的产品、技术和服务为企业带来更多价值。”

传统IT运维面临的四大挑战

当前,各行业都在进行数字化转型,比如构建DevOps、分布式架构、容器化转型等。在享受到数字化、云化带来的红利后,复杂的业务场景和大规模的用户给当今的企业带来了新的挑战和更大的风险压力。操作和维护。 主要挑战如下:

缺乏数字化业务运维:现阶段大多数企业更倾向于从应用或资源角度进行运维,缺乏从业务角度进行运维的能力。 而且企业的业务场景复杂,比如面向用户的手机银行、微信银行,面向内部员工的财务、HR系统,面向合作伙伴的开放平台等。 这些复杂的业务场景无法通过传统的运维方法进行量化和可视化,也无法将业务与应用系统进行关联和映射;

链路覆盖率很低:大约40%的用户体验失败是客户端本身造成的,大约60%是客户端调用服务器或中间件造成的,所以原来的单请求调用变成了长链路调用。 ,任何请求都可能经过客户端-服务器-中间件等多个异构节点。 每当发生故障时,运维人员无法快速感知调用链路中哪条链路出现异常或性能瓶颈;

运维产品多且碎片化:很多公司购买或搭建了各种监控产品,比如应用程序、中间件、基础资源监控等,这些产品供不同部门使用,还搭建了日志、链接等运营。 维护工具,但出现故障时仍需要人工信息采集,导致故障排除周期较长。 例如,当某个应用程序出现故障时,可能是由于其运行的虚拟机出现异常导致的,但是两个监控平台却各自发出了报警信息。 ,无法自动关联;

运维数据没有统一标准:海量运维数据无法实现数据多维度关联分析,无法支撑上层可观测性和智能运维能力,无法实现运维分析挖掘数据。

以上四类挑战最终导致运维人员每天陷入海量的告警风暴中,却无法准确发现故障; 生产事故频发,但没有良好的观察和应急措施; 而且每个故障都必须协调相关业务、应用研发、运维等各方的协作,不仅效率低下,而且成本高昂。

如何应对这些挑战? 传统方法是通过监控重点发现基础资源故障点,主要由运维人员进行; 近年来,随着云原生的兴起,可观测性的概念和技术也得到了很好的发展和传播,为应用系统提供了多种观测手段。 比如指标、链路、日志,可以更好地发现系统故障的根源,对系统内部进行白盒化,感知系统内部发生了什么,用户也可以从运维拓展到应用研究和开发发展。

但面对复杂的业务场景,这还远远不够。 蚂蚁集团业务场景复杂,每项业务完成都会经过很多应用系统,所以业务内部发生的事情就变得非常重要。 Ant Precipitate 将业务场景可视化,将数据服务语义化,实现业务与应用的关联映射。 当业务出现异常时,可以利用智能观测技术实现故障的快速定位和恢复。

商业智能可观察服务的五种能力

BOS(Business-Intelligent Observability Service)是蚂蚁金服基于大规模技术风险防控实践自主研发的运维平台。 具有业务数字化运维、全息可观测定位、场景化智能防控、集成数据集中分析、大规模实践等产品特性,可视化业务场景和语义数据服务,赋能异构应用/离云具有开箱即用的智能可观测能力,为业务提供全方位的稳定性。 确保并构建业务观察新范式,让稳定更有力。

商业智能可观察服务包括以下核心价值。

核心价值一:数字化业务运维

蚂蚁拥有上百个业务领域,业务类型多、业务场景多、业务层次高。 因此需要时刻检测和发现业务异常,例如流量下降/突然增加、流量故障等,并且能够在业务异常时提供快速诊断的能力,因此链路等观测数据、日志和指标按照业务场景模型进行聚合,提供数字化业务运维的能力:

通过整合业务链路和日志数据,添加业务依赖轨迹,可以构建交易业务(交易创建->交易支付->交易支付成功)等多阶段的业务模型,让业务方、研发和运营等维护人员能够通过可视化熟悉业务流程趋势,并能够自动感知业务的上下游依赖关系,并通过业务影响面定义故障并对齐紧急情况;

通过合并链接和日志数据,添加业务语义行为,可以自动聚合成业务单依赖链接,比如支付的动作、支付业务在服务器端的请求调用依赖是什么、支付业务什么时候调用发生损坏时,可以查看对应的业务链路,识别链路中的应用服务、中间件等异常节点,自动将业务异常与应用异常进行关联和映射;

通过融合指标和日志数据,增加业务语义维度,可以灵活定制和配置丰富的业务指标,如交易量、传输速率等,并利用全息可观测能力,快速发现和定位故障,提供业务连续性。 确保。

业务数字化运维从业务出发定位应急和可视化系统,但这需要建立可观察性和数据性。 我们提供一整套定位充分性衡量机制,衡量可观测基础数据的完整性; 并根据业务的优先级和重要性,对每项业务进行充分梳理,实现更广泛的业务覆盖,使平台内的业务一目了然。

核心价值2:全息可观测定位

端到端全链路观察:提供从客户端->服务器->中间件的分布式全链路跟踪能力,通过链路图、拓扑图、时序图等多种可视化方式识别并锁定链路。 通话中的异常点和性能瓶颈; 针对客户端应用,提供崩溃分析功能,监控APP崩溃、卡顿、死机等崩溃事件,及时上报APP对应的内存堆栈信息,方便问题定位。 此外,还提供启动分析、网络分析、电量分析、内存分析、H5性能分析、小程序分析等客户端监控能力。

提供丰富的服务器性能监控,直观地展示应用运行的各个方面,如应用的服务接口、资源使用情况、JVM运行时、端口生存等,将细粒度的观测数据组织到单服务、机房、单元等应用等。维度聚合实现指标层层下钻的能力; 真正实现指标、链接、日志等可观察数据的超融合。 例如,可以在对应的错误日志信息统计中查看错误数、慢接口、慢SQL等。指标可以查询对应的链路明细,单个链路可以查看应用运行指标及关联日志。

性能诊断分析:提供CPU快照分析、内存快照分析、线程分析、异常分析等性能监控能力,能够真实还原代码执行过程,帮助快速定位线程、堆栈等引起的程序故障。当时,Arthas是Java领域诊断在线问题的强大工具。 利用字节码增强技术,无需重启JVM进程就可以查看程序的运行状态。

故障定位与自愈:按照风险维度聚合相关告警和异常事件,提供单应用诊断、链路诊断、依赖诊断、故障决策分析能力,可快速定位故障点。 如已知的风险事件,可以自动触发已配置的风险计划,实现自愈能力。

应用安全治理:基于插桩技术,将安全策略注入应用运行环境,抵御黑灰网络攻击。 RASP安全技术可以在应用程序运行时检测攻击并保护自身。 其攻击拦截防护率高达98.7%,RT

核心价值3:整合数据分析

商业智能可观测服务除了提供丰富的可观测数据采集能力外,还可以与第三方系统数据集成,按照符合开源Open-telementry标准的数据模型对上报数据进行预处理和二次计算协议统一存储在高度可靠的数据库中。

连接第三方运维变更平台的元数据中心或CMDB,将异构元数据转换为统一的技术风险元数据,并根据不同的业务定位场景,如系统依赖影响、业务链接等,聚合成不同的影响模型影响。 、客户资产影响等,整合影响面模型上的时间序列数据,构建实时技术风险数据中台,使顶层可观测能力与底层异构数据源真正解耦。

综合数据分析的目的不仅仅是集中管理数据,更重要的是对数据进行关联分析,以支持运维各种技术风险场景,如故障诊断、根本原因分析、上卷和钻取等。下来等等。 以此来解决业务源下降、服务流失率等问题。 例如,当业务出现异常时,我们检测业务相关的变化、诊断业务相关的应用、分析应用的依赖关系等,然后整合整个业务中所有的故障诊断环节。 将异常点聚合并推送给应急人员,使其能够在最短的时间内感知故障影响并做出应急决策,最终实现蚂蚁科技风险应急响应的1-5-10目标(即发现异常)一分钟定位问题,五分钟定位问题)。 ,十分钟即可恢复故障)。

核心价值四:智能化场景化防控

蚂蚁内部对AIOPS算法和工具做了大量的探索,最终开发出了一套完整的算法能力平台,包括智能算法的部署、训练、回归、决策等。 与报警模块深度集成,基于时序数据,可以将从未发生过的突发尖峰判定为业务异常,如突然上升/突然下降、缓慢上升/缓慢下降、零下降、长趋势异常、频率异常、还给出了当前点没有报警的详细原因,如同比过滤、环比过滤、同上同下过滤等; 准确率稳定>90%,可识别增减>5%的异常波动,智能场景防控帮助更多企业实现自动化运维,释放运维人力成本。

核心价值观5:11.11大规模实践

商业智能可观测服务是安全生产、稳定保障的眼睛,其自身的稳定性极为重要。 商业智能可观测服务框架可以针对不同量级的观测对象实现快速弹性扩展。 所有组件均由蚂蚁自主研发,拥有强大的技术保障。 此外,整个平台在采集、计算、存储等方面具有超高性能,支持多地点、多中心容灾部署架构,可实现金融应急容灾能力的四个九,应对各种大型灾难恢复能力。 -扩展场景并确保业务不间断。

开放兼容各种异构应用

如今,越来越多的公司正在构建可观察的系统和产品能力,因为观察可以让公司的不同部门和人员获得更大的竞争优势。

对于运维工程师和研发工程师来说,可以利用全息可观测性,将业务设计-研发-运营-运维的整个流程实现可观测性。 端到端全链路可视化,定位调用瓶颈,提供一站式应用观察。 能够快速诊断故障根源; 项目经理和架构师可以根据业务影响定义故障,实现多部门协作和应急响应,提供业务场景/拓扑/链路/全局的多种视图,实现业务和系统映射,打破数据孤岛。 这样就可以实现业务运营; 对于企业来说,可以减少企业生产故障,提供更好的安全稳定保障,从而达到安全生产的目的。

商业智能可观测服务将以更加开放、兼容的方式对外提供。 阿里云公有云提供全套业务观察服务,可以与SOFAStack金融级云原生分布式解决方案以及阿里云其他产品配合使用,更好地享受云原生带来的便利。 还支持混合云私有化的输出。 目前可以部署在阿里云飞天、vmware虚拟机、Kubernetes容器、openstack等多种异构环境中,同时支持本地化架构,并获得了新创认证。

如今,分布式、容器化应用仅占企业系统的一部分。 大多数应用系统都位于云端并在经典虚拟机上运行。 这些核心系统也面临着前述的运维挑战,而商业智能可观测服务可以为各种异构语言和技术栈的应用系统提供开箱即用的业务观测能力,让云下的应用也能享受到可观察到的技术的好处。

如果有一些公司基于开源产品做了可观察的尝试,比如Skywalking、Prometheus、EFK等,商业智能可观察服务也是兼容的,可以收集开源链接产品上报的链接数据,收集基于开源链接产品生成的监控指标prometheus协议,可对接ES原有日志进行查询,实现应用系统无缝、零成本迁移。 商业智能可观察服务。

此外,蚂蚁数字还提供SRE咨询和配置服务。 搭配蚂蚁SRE的咨询服务,您可以对企业运维现状进行深入的研究和调查,并结合蚂蚁的技术风险实践,整理出一份专注于企业自身运维发展和运营的咨询报告。 SRE体系建设。 除了商业智能可观测服务产品外,还提供相关业务配置服务,根据企业试点应用创建业务样板间,如业务场景、业务指标、业务仪表板、检查脚本、故障诊断树、计划等。 ,并在配置过程中赋能公司人员,可以实现产品更好的落地以及对公司真正的自主和控制。

目前,金融行业多家国有银行、股份制银行、城市商业银行、农村信用社、保险公司等都已使用商业智能可观测服务。 例如宁波银行的可观测性和故障诊断自愈、中国财险的混合云统一观测平台等。

蚂蚁数字是蚂蚁集团的科技业务板块。 致力于不断对外开放蚂蚁集团在区块链、人工智能、云计算、安全技术等领域的核心技术能力,为中小金融机构数字化升级和小微企业数字化提供服务。和微型企业。 为运营、产业链的数字化协作以及跨境服务的数字化转型做出贡献。

0
0
收藏0

最新文章

取消
扫码支持 支付码