作为一名IT运维老兵,我于2018年4月加入工银瑞信运维团队,主要负责机房的基础运维工作。当时上海生产机房的基础环境已基本建设完成,生产系统正逐步从北京迁移到上海。随着上海生产机房的全面建成,原有5×12监控运维模式已不能满足生产需要。组建一支监控队伍,提供7×24监控运维服务已是十分迫切的生产需求。运维团队在5月初步完成了人员招募工作。经过制度建设、手册编制、人员培训等一系列准备,于7月正式提供7×24监控运维服务。回顾整个服务建设过程,有几点心得与大家分享。
一、建立制度规范
7×24监控人员是面对生产运维事件的第一线,及时发现、响应、上报生产事件是确保生产系统安全运行的基础要求。为实现这一要求,建立一套适合团队情况的监控运维制度显得尤为重要。
通过值班制度建设,规范监控巡检、事件响应、上报通知、跟踪处理的各项要求。发现事件、初步判断、及时上报、跟踪事件是监控运维工作的核心流程。通过编制详细的值班操作手册,规范该流程的每一个环节,明确生产操作步骤,使监控人员面对生产事件时知道如何正确处置,不慌乱,不出错。合理安排白夜班及巡检计划,充分利用现有人力资源,保证人员的充分休息和精力充沛,进而保证7×24监控运维工作质量。定期回顾更新制度、手册内容,使之符合当前生产运维规范要求。加强对监控人员的日常培训,务必使监控人员了解各项制度规范、掌握操作手册内容。
二、用好外部资源
工银瑞信运维团队的规模较小,监控资源有限,要提供完善的7×24监控运维服务,可以说是一项艰巨的挑战。运维团队充分利用各类外部资源,进一步提升7×24监控运维服务质量。
作为工行数据中心的机房托管单位,工银瑞信运维团队依托工行数据中心的科技运维力量,配合引入机器人机房巡检、机房出入监控、机房环境监控等先进、规范的运维能力,提高了7×24监控运维水平;通过定期组织维保服务商巡检,尽早发现设备故障隐患,将生产事件消除在萌芽阶段;建立良好的服务商沟通渠道,确保备品备件储备,同时利用好服务商驻场人员资源,进一步提升了7×24事件处理能力。
三、发挥人员潜力
面对长期琐碎且重复的监控工作,监控运维人员会产生精神疲劳,进而可能产生懈怠,这对生产系统的安全运行是一个风险。为应对这一问题,工银瑞信运维团队除了设置日常的监控运维值班外,还设置了监控常班,充分挖掘人员潜力。常班人员跟随资深工程师,完成各项生产建设任务及运维管理工作。通过常班工作,一方面,监控运维人员在工作内容上更加多样化,调节因琐碎重复工作而积累的疲劳感,同时也分担了运维团队的日常管理工作;另一方面,监控人员可以结合自身兴趣,选择技术发展方向,跟随资深工程师完成项目工作,提高运维技术能力,积累项目经验,为今后职业生涯发展打下坚实基础。
总的来说,做好7×24监控运维服务,重要的是围绕公司监控运维工作特点,建立一套行之有效的制度规范;积极调用外部资源和技术手段加强监控运维服务水平;注重一线人员培养,努力营造学习成长的良好工作氛围。