INFOLEX光大银行案例介绍

企业背景

中国光大银行,是目前国内唯一一家有国际金融组织参股并在香港间接上市的新型股份制商业银行。光大银行在北京、上海、广州等30多个经济中心城市拥有分支机构近400家,形成了覆盖面广、辐射能力强的全国性商业银行格局。同时,光大银行与60多个国家和地区的 700多家国外代理行建立了业务往来,并在香港、南非设立了代表处。

光大银行以北京复兴门和陶然亭两个数据中心为应用中心,采取一主一备的双中心模式。数据中心的工作包括对网络、系统、数据库及应用的日常运行维护、运行各类生产系统批处理作业、软件的开发组织等相关的工作。其中各类生产系统批处理作业的运行由光大银行运行处负责。光大银行运行处由20个人组成。运维人员实行三班制对数据中心的各类生产系统批处理作业进行调度,并对各类设备和系统进行监视。

面临的问题

随着光大银行使用的IT应用系统逐渐增多,应用系统间的关系也变得逐渐复杂。生产系统批处理作业增多,并且在不同的时间需要调度的内容也不同。比如,周末的作业和普通日的不同,月末的作业和月中的不同。而且常有需要临时执行的作业。调度工作繁重而且不规范。面对各类应用系统,不可能要求运维人员了解各个批处理作业的作用和特点。运维人员只能对照由管理员编写的手册进行相应的操作。这就出现了如下问题:

1.系统批处理作业的正确运行难以保证。

运维人员要对各类生产系统批处理作业的运行时间及作业间的关系十分清楚,否则就会出错。即使对作业运行的时间和运行关系很清楚,也可能出错。因为运维人员实行三班制,有些作业是在月末、周末特定时间运行,这样的作业每个运维人员运行的机会较少,很容易忘记,稍一疏忽就会造成错误。作业调度引起的错误,严重时会引发很大的事故,给银行带来巨大的损失。

2.系统批处理作业的运行难以管理。

运维人员的工作是按各个系统的手册进行的。对于管理层来说,运维人员每天具体在干什么,没有直接的手段获得。运维人员各行其事,每个人都有自已的一套方法来记录完成的工作(光大银行统一要求记录作业的开始和完成时间。)。这样当出现问题时,如果运维人员没能发现或由于认识不足没能上报,管理层就无法知道。最终问题会被业务部的客户发现,这时已经造成了损失。

系统作业的管理只能采用开会的方法。没有好的办法对运维人员的工作进行统计。

3.经验的流失

运行处的运维人员,在上岗前需要经过培训。经过一定时间后业务才能熟练。作业的正确调度,依赖于运维人员的工作态度和工作经验。这样人员的流动就造成了经验的损失。

在处理作业调度错误的过程中,管理人员会形成应对各种情况的经验,及改进的方法。由于没有恰当的工具将经验传递给运维人员,导致错误的重复发生。同样造成了经验的流失。

光大事故举例

案例一

某日光大银行有两个批处理任务A和B进行利息的计算,其中A生成的输出文件,通过FTP传递给B再由B继续运算。根据通常的情况,管理员规定了它们的运行时间。但当时A任务的数据量增加了很多,导致运维人员在启动B时,A没运行完没有产生输出文件,造成光大银行当天的利息没能入帐。

此案例说明了二个问题:一、运维人员没有注意到两个批处理作业的制约关系,造成了错误。二、由于这样的情况很少发生,难以引起运维人员的注意,过一段时间可能会重复发生。

案例二

某日光大银行在夜间要执行系统调优的批处理作业。调优作业的特点是很占系统资源。因此需要在业务量小的晚上运行。调优前需要执行一个作业A。当天由于某些原因,导致作业A运行时间延长到了早上,而当天执行作业的运维人员照常运行了调优作业,使得光大银行的其它系统被阻塞了3个小时。全国的分行不得在这3个小时内停止营业。

从此次事故可以看出,由于A作业的不正常运行导致了问题的出现,而这并没有引起运维人员的注意。同上面的案例一样,这种情况也可能会重复出现。

解决方案

智群科技采用自主研发的Infolex产品,为光大银行提供了理想的解决方案。

Infolex中的工作流可以方便的描述现实中的业务流程。可以通过图形方式,所见即所得地描绘出系统批处理作业的运行过程。工作流有如下特点:

  1. 工作流的绘制易学易用。Infolex提供了所见即所得的图形化工作流开发工具,可以很方便的绘制工作流,表达出活动间的顺序和并发关系。(活动代表工作流里的一个动作或功能)
  2. 用任务的概念来表达需要人完成的工作。任务以活动的形式放入工作流中。利用活动的启动时间、法定时间可以灵活的设定任务被执行的时间(比如周末、每月的最后一天等)。任务提供超时控制,当任务超时则进行报警。任务本身提供了转交、委托等功能,使得多个人可以协作完成一项工作。任务本身具有完成、失败、略过三种操作来标识业务中的任务的状态。
  3. 用监视活动来表达并发执行的活动间的制约关系。通过工作流中的顺序、并发、及监视活动可以表达任何业务逻缉。
  4. 强大的任务管理器,以Web的形式提供了任务的监视和操作界面。
  5. 详细的权限管理。可以将人员按不同角色分配权限,来保证工作流的正常运行。
  6. 详细的日志记录。任务和活动的运行情况都有详细的日志记录,以便对历史事件的追踪,对业务人员工作的审核等需要。
  7. 支持灾难恢复。
  8. 支持丰富的接口和接口的二次开发。

Infolex的以上特点使它可以出色的解决光大银行系统批处理的问题。Infolex的使用方法如下:

  1. 将光大银行的所有系统批处理作业的运行完全由工作流进行调度,运维人员严格按工作流中的任务指示进行操作。运维人员在完成任务时,首先要对任务进行接管,根据实际的完成情况执行任务的完成、失败、略过操作。
  2. 工作流由管理员根据实际情况进行绘制。
  3. 管理层可以通过任务管理器观察任务的执行情况(完成、略过、失败、超时)。
  4. 提供通知机制,下发工作流中临时的变动。运维人员必须进行确认才能进行相关的操作。
  5. 提供任务查询功能,及查询结查的导出。可以进行统计、生成报表、及对工作流的调优。
  6. 提供在线人数的统计功能及运维人员登陆历史的查询。

光大银行的工作流如下图所示:

产品

其中的一部分如下图所示:

产品

实施过程

Infolex企业应用整合平台由Infolex服务器、服务器管理器、任务管理器、工作流开发工具Studio、接口开发工具Activity Bilder和一些辅助工具组成。

系统的运行基本环境是:支持JDBC的数据库(当前主流数据库基本都支持JDBC)、安装 Studio和Activity Builder的操作系统要具备图形环境。

项目实施包括以下内容:

  1. 启动阶段。制定项目计划;
  2. 设计阶段。差异分析、工作流设计研讨、角色与职责确定;
  3. 建造阶段。Infolex服务器安装、Infolex运行时库表创建、用户数据创建、角色创建、权限分配置、Infolex图形开发环境安装、设计工作流。
  4. 测试与试运行阶段;用户使用培训。

效果分析

在光大银行,使用Infolex的工作流来管理运行处的工作后,大大减少了运维人员在运行批处理作业时出错的可能性。引用光大银行一位处长的话说:“运维人员在运行批处理时不用再提心调胆了”。管理层可以时刻了解到运行处批处理作业的执行情况。可以事先发现问题,出现问题时根据工作流的运行状况和记录可以讯速的定位问题。在错误中吸取的教训可以写入工作流中记录下来,自然的传递给运维人员。在工作流的辅助下人员的流动影响变得很小。

第三节所例举的事例在工作流的控制下得到了解决。工作流可以描绘任务间的制约关系,使得再A任务没有完成前不能运行B,这样就避免了案例一的发生。工作流中的任务具备超时提醒的功能,当任务发生超时会进行报警,此时可以由运维人员或管理员进行相应的处理,从而避免了案例二的发生。