» 新闻中心 » IT外包资讯 » 寻找IT运维管理中的“阿喀琉斯之踵”

英雄阿喀琉斯(希腊神话人物)出生时,他被母亲海洋女神倒提脚跟浸没在冥河水中,从此浑身刀枪不入。但最后他死在冷箭下,中招的部位就在脚跟。从此,“阿喀琉斯之踵”成为致命弱点的代名词。

    这个词被很多行业引用,来说明问题的严重性,而当迁移到IT领域,它的名字叫“故障”。其原因在于,当企业离不开IT的时候,必需为生存寻找隐藏其后的致命弱点,因为各种故障随时都可能正在发生。

    IT故障为何频频光顾?

    这个问题有点匪夷所思,与十年前的生产工艺相比,如今的IT设备或是软件的成熟度、稳定性大大增强,但为何IT故障还是频频光顾呢?

    对此,作为国内领先的IT运维管理专家,北塔软件提供了比较客观的分析:

    第一,确保不出现故障的硬件和程序,在这个世界上是不存在的。任何以稳定性著称的系统都必需符合“相对论”,问题只在于这个错误你有没有碰上而已。

    第二,IT系统的复杂性,与微信中疯传的“一张图看懂阿里巴巴”不同。许多企业中的业务子系统相关联系非常紧密,对于企业的运营来说,这些IT基础设备上跑的业务往往是一个闭环。断其一点,循环不畅。

    第三,云数据中心是虚拟化技术演进的结果,冗余性设计让管理员不必再担心瞬间停机,但故障主机的修复更具挑战。这是因为,虚拟化解耦了物理设备之间一一对应的关系,虚拟主机可以位于云端任何计算节点或存储设备上,这使得发现并排除故障的时间成本更长。

    第四,当业务系统大到一定的程度后,如果依靠人力管理,则极易发生失控的状况。一些骨灰级的IT运维高手可以手工巡检、排错,但如果支撑业务系统的对象数量、逻辑结构超越了“大脑记忆”容量,那些凭借经验修复网络的高手就很可能败下阵来。

    破解IT运维的复杂性

    “IT运维管理部门的真正价值并不是出现故障之后的处理,而是在故障发生前能够准确判断,排除隐患,并避免故障的发生。”北塔软件建议用户采用主动运维的方式来对待故障管理,同时还借助北塔BTIMIT综合管理软件,介绍了消除业务系统复杂性,简化运维管理的方法。

    第一,能够帮助企业有效对抗故障难题的方法,就是建立主动性的发现机制和处理流程。而主动发现故障,取决于企业IT运维管理部门的思想转变,践行于IT基础设施的有效监控。稳妥的IT基础设施监控是后续环节的起点,同时也是将运维从复杂变化为简单的关键步骤。将分散或看起来不相关的组件(问题)联系起来,以形成一个完整的系统,此时监控系统中才能派生出预警信息,才能“有意义”。

    以北塔软件的北塔BTIM为例,在操作界面中的对于图标使用“红、棕、黄、绿、蓝”不同的颜色,这代表5个告警等级,此告警等级可以代表不同的运维等级,它们是:紧急、高级、中级、低级、提示级。根据优先级的不同,对应的处理人员不同,处理流程也不同,响应的时间也是不同的。

    第二,主动运维的理念已经深入人心,但如果还使用基于ICMP(ping等命令)的管理,利用连通性来判断业务系统“缓慢”原因的人就是“超人”。此时,如果个人经验已经无从下手,用户就需要使用到北塔BTIM产品中的一些“特殊功能”。

    例如:“故障根源分析策略”、TFS管理系统、业务流量视图,这都可以帮助管理员化解故障处理的复杂性。其原因在于,再复杂的系统,都有数据行走的路线。一旦发现问题,依据业务流量实际流量路径,按分析需要逐层扩大数据采集的深度和广度,层层深入,便能直达故障根源。

    第三,针对数据中心场景的变化,IT运维也应随之“进化”。虚拟化创造出一种全新的数据中心模型,基于X86技术的开发让软件定义数据中心弹性无穷。但其背后却隐藏着许多隐患,很多传统的IT运维管理方案都只能工作在物理环境中,许多管理员又再次陷入了手动运维、被动管理的泥潭。

    为此,北塔BITM在虚拟化环境中采用独有的“物理拓扑”运维,在可视化方面为ESX/ESXi主机、虚拟机、数据存储、虚拟网络构成了等同于物理设备一样的管理中心。

本文由IT外包网 www.it-zm.com摘自互联网