近几年IT行业发生的一个明显变化是,数据中心逐步向云计算转型,软件和软件工业由人工方式转向大数据和人工智能驱动,相应地,软件的设计、开发、运维也顺应数字化转型的思路开始向智能化转移。而其中在企业生产经营中扮演“救火队员”角色的运维随着云计算的迅猛发展及服务器、软件模块等的急剧增长从手工运维迅速向智能运维迭代,从安全保障向提升生产力推进,俨然已成为数字化浪潮下新一轮企业竞争、资本投资的新风向。因为不是生产力部门,运维环节在之前并没有受到太大重视,有的企业甚至没有专职的运维岗位,而由于缺乏运维工具和操作指南,早期运维工作只能由运维人员手工开展,依靠多名运维人员共同完成产品运行状态、产品性能指标、产品上线与变更服务等的监控。而随着全球数字化进程的推进,服务器、软件模块、访问数据激增,IT系统的数量和复杂程度加剧,原先的运维体系难以承受巨大的运维压力,监控项目顾及不来,事故发生无法准确定位,迫切要求运维工作向自动化、智能化转变。智能运维AIOps在此背景下兴起,其基本逻辑是以大数据和人工智能的方式,替代原先人工对数据中心的运维方式。此前的运维方式经历过自动化运维、运维开发一体化阶段的演进,但依旧很依赖人工,即必须由长期在一个行业从事运维的专家手动将重复出现的、有迹可循的现象总结出来,并形成规则,才能完成自动化运维。而智能运维很重要的一个突破,就是进行自学习的“去规则化”改造,通过机器学习算法自动地从海量运维数据(包括事件本身以及运维人员的人工处理日志)中不断地学习、提炼并总结规则,也就是将人工总结运维规则的过程变为自动学习的过程,缓解人力压力的同时,将极大提升运维工作的效率和质量。在日常系统运维工作中,经常遇到的两个场景便是异常行为检测和预警。传统运维在工作过程中,往往会出现告警分析不够智能、问题难定位、根因难确定等问题,AIOps的落地将极大改善这些现象,多方面直击痛点,自动、及时、准确地发现和定位问题。不仅如此,智能运维将在质量保障(包括异常检测、故障诊断、故障预测、故障自愈等)、成本管理(包括指标监控、异常检测、资源优化、容量规划、性能优化等)和效率提升(包括智能变更、聊天机器人)等场景中为企业全方面保驾护航,除了安全保障工作的完成,将逐渐深入企业业务,推动企业智能化生产和服务。智能运维的运用空间广阔,除了互联网,在金融、物联网、医疗、通信、工业等领域均表现出对智能运维的强烈需求。不久前,担任冬奥会、冬残奥会主火炬氢能保供任务的燕山石化高温油泵突发异常,设备监测系统触发报警后,之所以5分钟内把安全隐患排除在萌芽中便得益于容知日新的智能运维系统。在数字经济发展的大背景下,机器学习和人工智能为智能运维提供技术支撑,而云计算特别是公有云的发展,改变了过去数据中心小而分散的局面,能为人工智能分析提供全量、全面的大数据,智能运维将进入快速发展时期。数据显示,2020年中国IT智能运维市场规模为560.8亿元,年复合增速为20.1%。预计未来以15.9%复合增速扩张,2025年市场规模达1093.5亿元。尽管只是互联网经济一个细分赛道,但智能运维已经成为资本争夺的新风口,智能运维未来发展表现出强劲的韧性。政府部门也陆续出台《推动企业上云实施指南(2018-2020年)》《国家新一代人工智能标准体系建设指南》等一系列政策推动智能运维的发展。目前,中国的IT运维服务商主要由原厂运维服务商、第三方运维服务商、ITOM/ITOA厂商和IT基础架构系统集成商组成,正在朝着高效、专业的方向演变。但也需承认的是,我国智能运维还处在起步阶段,未来还有广阔的发展空间。挑战在于智能运维需要高质量的标注数据,高效的数据标注方案才能减少人力、时间等成本的消耗,事半功倍。其次,在线系统本身具有规模性和复杂性,是需要长期投入的研究领域,未来任重道远。通往进步的路必然是沧桑的,但因其为后面的人造福,引无数人前往。