说说集成平台的运维管理

作为一家没有实施过集成平台或者数据中心的三甲医院信息科负责人,现在确实有点抬不起头来了,你会感觉自己落后整个行业七八年了,聊起技术来,一点底气都没有。

随着电子病历等级测评和互联互通标准测评的广泛推行,集成平台这技术,已经从原来曲高和寡的阳春白雪变成了寻常医院的堂前家燕了。

这现在政策要求三甲医院必须达到四级电子病历建设标准。在这个大背景下,加上市场因素的持续用力,集成平台也就变成了三甲医院必须具备的信息化基础工程。系统之间的数据交互和业务协同必须通过平台进行处理,原来的接口模式、视图模式都已经不满足现有的行业要求了,信息烟囱在平台的整合下达到了和谐的统一,怎么看都是形式一片大好,不由得你不羡慕。

集成平台出状况啦

终于,近年来咱家也实施了集成平台,领导说了,要把它整的巴巴实实的。为了实现预期的设计效果,我们把现有系统梳理的清清楚楚,明明白白;接口也经过多次讨论后,进行了标准化处理;业务流程在各职能科室的大力协作下,也明确了下来。数据标准化处理,那是必须的活,对照标准,一个字段一个字段的过呀,基础不牢,地动山摇,这道理咱懂,辛苦点都是值得的。

噢啦,反复测试,不断测试,终于,上线了。

第一天,业务正常,反馈正常,速度略慢,心中稍安。

第二天,业务正常,反馈正常,速度略慢,心中又安。

一周过去,业务正常,反馈正常,唯有速度略慢,心中窃喜,集成平台算是实施成功了吧。

一月过去,周一早,业务科室反馈各系统速度奇慢。原想着,昨晚有医保升级,可能是医保系统导致,查各业务系统都是正常的,问题依旧未能解决。终于,在焦头烂额中,想到了平台,一查真是集成平台数据库挂起了,重启后,问题解决,一身大汗。

又一月,故障重现,又是集成平台,还好,因为有了先前的经验,定位准确,故障倒是很快排除了。天热,又一身汗!

图片[1]-说说集成平台的运维管理-JieYingAI捷鹰AI

不是吧,这说好的做彼此的宝宝,咋这集成平台就让我瞬间成了宝器呢。不行,这事我得整明白,我不能让这玩意毁我一世英名呀。

图片[2]-说说集成平台的运维管理-JieYingAI捷鹰AI

先问问已经上线了的各家医院啥情况。啪啪啪,信息发出,嘀嘀嘀,兄弟们先后都回复了。

看来,集成平台出故障不是我一家面临的问题,实施了集成平台的医疗机构先后都出现过,尤其是在刚实施平台的初期,故障发生相对频繁。由于实施了集成平台后,平台就成为医院所有信息系统的连接基础,它有点不愉快,大家都会受连累。就跟那个PPT说的一样“集成平台就像插线板一样,所有的应用都插到它上面,实现了应用之间的数据交互快捷、业务协同便捷”。不错,插线板啪嚓啪嚓掉电了,上面的各个电器也就不能用了。要是再赶上你运气不好,买了个假冒伪劣的产品,性能不好,更容易引起断网故障。所以呀,集成平台的运维非常之重要,得认真对待。

问了这么多大哥,我就把大家的的回复和我恶补的知识,总结并分享出来,这些血泪史,都是宝贵的经验,希望能帮助同行把集成平台下的信息系统运维工作做好。

集成平台稳定运行,运维很关键

要想做到集成平台稳定运行,需要做到以下几点:

1、架构上必须冗余,稳定最重要

集成平台上线后,它就成了医院信息系统的核心。所有连接的系统会通过它进行消息转发,因此在架构上最好采取高可用设计,关键设备或设备核心部件应当采取冗余设计,能够避免单点故障导致系统整体或重要功能的丧失,保证系统平稳运行,最大限度减少停机时间而且包括便于故障排查、恢复和日常的运行维护的机制。在采用硬件备份、冗余、负载均衡等可靠性技术的基础上,采用相关的软件技术提供较强的管理机制和控制手段,以提高整个系统和数据的安全可靠性。

记住记住,资金再紧张也要搞主备模式,就像机房建设标准要求一样,一定要是双电源双电路。

2、操作系统层面,最好采用Linux

由于Windows Server 自带的图形化界面,本身就对资源需求大,也容易和集成平台的引擎发生冲突,导致故障发生,而采用Linux的相对较好。再者,安装盗版操作系统也更容易引起故障的发生,究其原因,这与盗版操作系统可能与集成平台之间的契合度不是那么好有关。

对于国产操作系统与集成平台的契合度,由于没有机会测试,在此不做评价。

3、做好资源规划,避免资源竞争故障

集成平台很多都提供了最佳实践best practice方案,而鉴于集成平台厂商本身的商业性质,这些方案往往需要用户追加投入去购买资源(比如允许的核心数或者通讯点)。如果我们在实施初期因为经费所限,可以购买少量的许可,这样投入相对经济。但是随着应用的不断完善和拓展,应该及时评估资源,增加相关许可数量,如若不然,也会导致问题和故障频发。

资源规划还体现在服务器、存储资源甚至网络资源的规划上,一定要留有余地,确保当一台或者两台服务器发生故障时,剩下的资源能够承担起业务。如果你发现单台资源占用已经超限时,就意味着一旦一台设备故障,集成平台将出现“雪崩”现象,无论你如何恢复都无法将平台拉起来,它会不断被业务冲垮。此次唯有修复重启所有节点才能保证平台能够启动,这对于整个医院系统将是毁灭性打击。

4、硬件设备日常运维,减少故障发生

集成平台上线,需要较多的服务器资源、网络资源及存储资源的支持,加之现在虚拟云广泛采用,有的医院就集成平台及其应用就有几十台各种服务器,这么多服务器一定要有方便的运维监测系统来进行管理。无论是磁盘、内存、CPU的性能监测指标都不能少。平台还会采用LINUX、虚拟化、超融合等技术,这就给运维增加了更多的技术难度,需要维护工程师及时做好技术更新,补足短板,避免出现会用不会修,出故障只有找厂家的尴尬场面。

5、关注平台自身性能监测,消除平台的系统故障

对于一个集成平台,自身完整的性能监测是非常重要的,内容涉及各个节点网关、性能监测、接口、队列、消息、日志、警告等等。有点平台本身提供非常完整的可视化监测工具,能够很好的发现问题所在,有些平台就需要二次开发方能具备可视化监测的需求。建议大家一定要在建设时,对此提出要求。这能让我们有一个趁手的工具。

由于平台的特性,导致日志文件增长非常快,我们必须制订合理的日志处理策略和存储策略,以避免因空间不够造成平台服务挂起,进而影响业务系统的正常运行。

在平台运维中,我们还需要关注服务及接口的消息转发状况,对于异常状况,分析原因,及时给予处理。

6、慎重使用小众产品,随大流方为中庸之道

由于集成平台的重要性,建议大家一般情况不要选择小众产品。如果厂家的销售告诉你,我们平台是自己家的产品,我们自行开发的产品。那这时大家一定要多多考察,一般来说,国内所谓自主开发的厂商普遍是在开源代码上进行修改,号称是自己完全知识产权,也能很方便拿到软件著作权。但是这开源产品的安全性、稳定性,以及这厂家对技术的掌握程度,加上代码规范性等等因素,都会对这个平台的性能和稳定带来极大挑战。加之市场推广不足,你就很可能成为一个试验品。

因此,安全起见,随大流没有错,技术成熟、技术支持有保障。

另外,跨行业的产品也需要谨慎应用,多年前有厂家说,我们在金融业、电力业都得到广泛应用,现在想进入医疗行业,技术上我们是一点问题都没有。这只能说明厂家对医疗业务理解是不足的,平台的流程设计内容,他也是基本上不懂的,很容易造成平台项目失败,就是不失败,你用起来也是磕磕绊绊。很多年前,一个平台商曾经信誓旦旦准备从制造业转向医疗行业,多年过去了,依然未能突破行业壁垒。

7、做好网络安全和病毒防范,确保平台安全可用

集成平台成为医院各部门业务开展的必备基础和中枢,更需要加强网络安全和病毒防范。尤其是在采购时、上线前确保现有安全措施能够延伸和覆盖。做好平台日常的网络安全、数据安全、病毒防范等工作,确保平台安全持续运行。

此外,互联网+医疗时代,医院信息系统面临的网络安全风险加剧,内外网数据交互成为常态。建议,区分内外网集成平台应用,将其分别部署在不同服务器上,避免因外网数据访问不可控,带来内网平台故障。清晰的功能分区,也能提升集成平台的稳定性,

8、及早做好应急预案,应对平台无法恢复之故障

建立完整的应急预案,在故障发生时可以从容对待;建立可配置程序体系,可以快速切换业务系统,减少故障持续时间。

(看出来了吧,实际上我也没有想好,应急预案该咋做,目前是在架构设计上做冗余,在备份机制上做灾备。还是心里没有底,求方案)

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
来说点什么吧!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容