浅析城轨云的可靠性问题

来源:公众号“花猫站长”
2020-09-10
2343

近年来,随着IT技术架构的发展,越来越多的城市在城轨生产IT系统中,采用云化系统架构。城轨云使用虚拟机取代了传统的物理服务器承载业务系统,具有IT资源利用率高、功耗低、节省机房空间和空调容量、低CAPEX和OPEX等优势。


但正是因为虚拟机取代了传统的物理服务器,一台物理服务器被分割成多台虚拟机,如果虚拟机分配不当,将给系统可靠性造成不利影响。下面通过几种场景说明这一问题。


(1)物理机失效问题

由于一台物理机被分割成多个虚拟机,一台物理机失效,将导致几台虚拟机不可用。因此在城轨云中,物理机失效的影响较传统系统大得多,物理机上承载的虚拟机越多,这种情况越显著。


(2)双机热备集群失效问题

出于可靠性考虑,一些要求高的业务采用双机热备方案。在城轨云架构中,通过两台虚拟机分别承载主用和备用应用系统。

如果主用和备用虚拟机被分配到同一台物理机上,一旦该物理机失效,则主用和备用应用系统会同时故障,无法提供服务。


(3)双机热备集群切换问题

双机热备集群虚拟化部署时,如果一台物理机故障,将导致多个应用发生主备切换,如果处理不当,可能导致意外结果。


针对上述问题,建议采用下列措施规避。


(1)一台物理机上分配的虚拟机不宜过多,可靠性要求高的系统,每台物理机承载的虚拟机数量以不超过2台为宜。


(2)双机热备集群的两台虚拟机,严禁由同一台物理机承载。同时将双机热备集群的两台虚拟机,设置为非亲和属性,或者关闭虚拟机自动迁移功能,避免云操作系统在物理机负载较高时自动迁移虚拟机导致双机热备集群的两台虚拟机被迁移到同一台物理机上。


(3)双机热备集群中的虚拟机应该交叉部署(如下图所示)。且每台物理机承载的双机热备集群虚拟机不宜多于2台,即使物理机失效,则至多发生一次主备切换。

双机热备集群虚拟机交叉部署示意图


同时,由于城轨云中,系统由统一的云平台承载,一旦云平台发生故障,有可能导致整套系统不可用,针对这一问题,建议采用下列措施规避。


(1)双机热备集群主用、备用虚拟机采用不同的云平台承载。


(2)主用中心和灾备中心采用不同的云平台承载。


(完)


收藏
点赞
2000