|
案例回顾:双机热备,让服务器永不间断
楼主
来源:Enjoylife@enjoylife 7/8/2012 3:55:00 PM
系统故障可能由各种原因引起,服务器若想恢复正常可能需要10分钟、几小时甚至几天。 我原来的单位作为北京市某区的网络核心,针对不同的业务部门的应用平台就有20多个。而重要部门的外网网站和内部的OA也有20余个。其中**网络自动化办公平台搭建于2001年初,经过了5年的升级改造后,现在运行的已经是第四版了。这个平台不但作为区内所有**单位、各委办局、街道办事处等等部门的信息通讯平台,同时也是整个公文的流转载体,地位之重可想而知。 给服务器找个替身 某日,该区的核心服务器出现严重故障,导致数据丢失。我作为一名有十年工作经验的信息主管,对于这台服务器几年内遇到的故障问题可谓是胆战心惊,想必大家也都清楚一个网络管理的常识,那就是使用率越高,故障率也越高。 在修复服务器之后的一个月,单位派我参加网络安全的学习班。其实我早就听说过“双机热备”这个名词,不过真正了解它还是得益于学习班中的“保障业务连续性”的内容。 很多厂商为我们解释的“零”时间转换,其实是不可能做到的,从实际应用的效果当中,或者从一些真实的案例中我们不难看到这只是一种相对的“零”时间。一般的系统能够保持1分钟进行主机转换已经是一种比较好的设计了。 双机热备由备用的服务器解决了在主服务器故障时服务不中断的问题,但在实际应用中,可能会出现多台服务器的情况,即服务器“群集”。(这里我需要说明一下,根据Cluster的正确翻译我们应当将这种多服务器正是命名为——群集,而不是集群)如果我们更加具体的解释双机热备系统,那么就可以理解为Active(活动)与Standby(备用)方式存在的两台服务器,它们共同使用一个共享的存储设备。在同一时间内只有一台服务器运行,当其中运行着的一台服务器出现故障无法启动时,另一台备份服务器会通过软件诊测(通常叫做心跳诊断)将备用服务器激活,保证应用在短时间内完全恢复正常使用。 准备部署双机热备系统 从学习班回来后,我们单位按例召开每月的工作交流会,借助我区建立安全信息平台的计划,我提出了建立双机热备的必要性。我们系统部每天接到的系统故障保修电话不下30个,这些故障类型繁多,如设备故障、操作系统故障、软件系统故障等等。 网络操作人员和系统管理员人为的恢复服务器正常可能需要10分钟、几小时甚至几天。而如果技术人员不在现场,则恢复服务的时间就更长了。这次OA的故障实属特殊,可能有些系统工程师干一辈子都遭遇不到这样的情景:RAID5磁盘阵列中的两块硬盘同时掉线;备份系统刚刚迁移到新的机房。当时感到的压力是从来没有遇到过的,在感谢IBM工程师及时修复的同时,我感到建立更加完善的保障体系更加重要。 大家都清楚一个道理:服务器故障率要比交换机、存储设备的故障高得多。原因很容易理解,服务器是比交换机、存储设备复杂得多的设备,它既包括硬件,还要包括操作系统合应用软件系统。决定是否使用双机热备,正确的方法是要分析现有系统的重要性以及对服务中断的容忍程度,以此来决定是否使用双机热备。 不仅设备故障可能引起服务中断,而且软件方面的问题也可能导致服务器不能正常工作。决定采用双机热备系统的“最终条件=用户容忍时间-系统恢复时间”,根据以前的调查表,和每天接到的咨询电话,OA的用户端最长的等待时间不超过一小时,而我们要从备份中恢复的最快时间要超过6小时。由此可见,建立双机热备系统势在必行。 选择部署双机热备的方式 报告也打了,资金也批了,到了开始组建阶段我到犯了难。我了解到双机热备有两种实现模式,犹豫的原因是到底选择哪种方式建立?一种是基于共享的存储设备的方式,另一种是没有共享的存储设备的方式,一般称为纯软件方式。 存储共享式 对于这种方式,采用两台服务器,使用共享的存储设备(磁盘阵列柜或存储区域网SAN)组成。在对外提供服务过程中,两台服务器将以一个虚拟的IP地址对外提供服务,当一台服务器出现故障时,另一台服务器根据心跳侦测的情况做出判断,并进行切换,接管服务。由于使用共享的存储设备,因此两台服务器使用的实际上是一样的数据,由双机或集群软件对其进行管理。 纯软件方式 简单地讲,纯软件方式就是通过镜像软件,将数据实时复制到另一台服务器上,这样同样的数据就在两台服务器上各存在一份,如果一台服务器出现故障,可以及时切换到另一台服务器。还有一种情况,群集也不需要使用共享的存储设备,而可以直接使用双机或群集软件即可。但这种情况其实与镜像软件无关,只不过是上面的共享模式下的一种变化而已。 经过了系统组的讨论,最终选择了“存储共享式”。原因有三: 1. OA是建立在Windows IIS + SQL Server平台上,采用Windows 的 Cluster Services不会出现兼容性的问题。 2. Windows Cluster的建立通过简单的培训整个系统组都能进行管理,具有通用性,也能保证今后的升级不会造成麻烦。 3. 考虑到OA今后的数据量,将购买软件的资金投入到存储设备上更加合理。 在随后的一年多时间里,其间双机热备系统出现过单点故障。其中有一次是一个系统补丁安装完以后造成IIS无法启动,和OA的厂商共同模拟故障后找到了原因。不过,OA在这一年里却没有停止过。
|