编者按:根据用户需求,《中国计算机用户》与赛迪网携手,举办了“统计行业如何实现数据大集中”的网络会议讨论。来自国家统计局等统计行业的信息主管,中科院软件学院院长潘辛平,IBM、HP、华为等IT厂商代表都积极参与了此次讨论。
经过精心策划和筹备,《用户点题》栏目与赛迪网合作开办了“《中国计算机用户》网上会议中心”( http://event.ccidnet.com/meeting/),定期围绕《用户点题》栏目主题在网上进行交流研讨。第一场主题研讨于6月24日中午11点30分——13点如期在网上举行。会议围绕“统计行业如何实现数据大集中”展开了热烈研讨。来自国家统计局、北京市统计局、上海统计局、湖南统计局等统计行业的信息主管,中科院研究生院软件学院院长潘辛平,IBM、HP、华为等IT厂商代表都进行了积极参与。本期栏目围绕此次研讨内容进行了跟踪报道。
我是北京市统计局计算中心主任裘孔明,如何实现“统计大集中”,包括建设“统计数据中心”,并在资源整合的基础上,建设一个规范统一的“统计工作信息化平台”是当前比较关心的话题。贵刊能否给予合理建议?
大集中的选择与实现
经过多年探索、实践,银行业、证券业对信息系统大集中的讨论已基本形成定论。海关监管方面的部分应用的集中、国家对商业银行信贷管理的集中监控均已投入应用,并取得了良好的应用效果。企业信息系统大集中也已开始进入计划实施阶段。从各方面动态可以看出:统计、税务等主要行业的信息化建设目前也面临着大集中的选择问题。
不得不为的变革
银行业的大集中应该是早于其他领域的,其主要原因源于上世纪九十年代初期国家在银行业开始对银行法人治理结构的重视,对信贷责任的明确。早在1995年工商银行就开始了全行核心业务系统的大集中,其主要原因就是为了对全行资产负债情况有一个总体的了解。而当时工行的情况用一个领导的话说,不要说全行资产负债,连有多少计算机业务系统都说不清楚。面对这样的现状和法人治理对总行领导的责任要求,自然就会寻求技术手段对全国几百个分支机构、数万个终端网点进行管理。
事实证明,信息系统大集中对法人治理和管理业务目标的实现确能起到支撑、保障的作用。没有中国银行南方区的系统集中,开平支行四亿多美元的现金流失就难以发现。2002年证券公司信息系统逐步集中过程中,也相继发现了原来分散管理的营业部的不少问题,为防范更大的危机提供了帮助。
对银行业、证券业来说,系统集中的战略意义远非加强法人治理、控制防范风险所能概括。系统集中还可以改变企业的业务流程,将产品研发、风险控制、市场营销和客户服务等不同环节,在新的系统平台上重新划分组织。重组的结果将形成更专业化、更高效的团队,使产品研发、风险控制、客户服务、市场营销在统一的平台上实现更专业的分工,从而可以面对WTO对中国金融业带来的压力和挑战。系统集中可以强化企业对产品研发的控制,降低开发成本,降低分散的开发模式带来的产品风险。
几个关键问题
技术系统能力问题:技术部门对集中化的考虑首先是技术的可靠性及由此带来的风险。实践证明,技术问题绝不是系统集中的主要障碍。现有系统性能基本能够承受大容量交易业务,如从交易的强度看,南方一个普通的省级电信日交易量可达到四、五千万笔,国内最大的银行工商银行的日交易量也不过如此,深沪两市每日的交易笔数也不超过一千万笔。但系统一旦有故障,造成的损失无法挽回。
通信系统能力问题:通信问题是集中化过程重点考虑的问题。银行通信中断虽不会带来直接损失,但可能产生客户抱怨以至于客户丢失。证券对通信保障能力应该是最为敏感的,如果一家券商因通信中断影响交易,而同时其他券商还能正常交易的话,这家券商恐怕将面临生存危机了。券商已实施多年的集中报盘和近年的大集中实践表明,规划合理的通信网络是可以保障交易的。
组织责任变化问题:这是集中后很快会面临的一个棘手问题。传统分布式系统工作模式下,技术支持与客户服务、管理配置、考评责任是相对自成体系的。而集中后,一个客户的请求可能要经过分支到达集中地,相互推诿责任,影响工作效率的事肯定不会少见。
管理集中和客户需求个性化冲突问题:集中的一个重要目的就是通过产品集中开发,减少重复投入带来的成本和风险的增加。但是不同地区、不同竞争状况,必定存在不同的产品需求,这与一刀切式的“大集中”是相矛盾的。因此,大集中应该建立不同灵活程度的多层次平台,允许不同的开放程度和审批流程,以满足各机构可能会有的不同取向。
可能的集中化路径
集中化过程应该是技术、管理、业务、开发、认识等互动发展的一个过程。不同领导、不同团队、甚至不同时间,可能会有不同的战略安排。因此集中过程往往不是一蹴而就的,可能演变出不同的路径,大致阶段有如下几种:
软件开发管理的集中:这是集中前的准备工作,无论券商还是银行都是从这步工作开始的。主要工作是统一、归整和清理数据,为集中模式做基础准备。
系统权限的集中:在软件统一后,为进一步控制风险,逐步调整管理服务流程,将分散系统的管理权限,新软件、参数的配置权限通过网络上收到总部,也是一种集中状态。
数据的集中:这是对实时作业系统集中的一个预热准备。可以测试网络的可靠性,也可以部分实现风险控制和提高管理数据质量。
处理的集中:这是一种折衷的权限的集中,数据可能在集中点与网点都同时存在。对网络的要求高,对系统的可靠性要求也较高。券商的集中报盘就是这样一种集中,它为早行的券商节省了不少成本。
区域性的集中:这是为减少管理半径,又避免集中过程中经验不足,防止风险过大的一个集中的中间状态。区域性集中的系统有可能是原有单网点系统的大配置版本,可能根本不能支持全机构的大集中。这是要注意的一点,即这部分投资能否得到保护。
大集中:这是理想状态的大集中,网络将所有网点联接在一起,数据与处理全部集中,新功能的开发、参数的调整均实现统一管理,客户服务流程、岗位职责及考评均已在信息系统的支持配套下完成了调整。(■ 中国科学院研究生院软件学院常务副院长 潘辛平(博士))
用 户 背 景
2002年北京市统计系统统计信息化建设进程进一步加快:市统计局初步具备了网络化的工作环境,完成了内部和外部网站的改版工作,成立了网站管理机构,全市有17个区县建立了统计网站和局域网。完善了北京市建筑领域数据库和在线分析系统,建立了郊区综合经济数据库和在线分析系统。2003年市统计局信息化建设的工作重点是在做好全系统的发展规划、推行企业网上填报、启动数据库建设和在线分析应用软件开发等方面有较大突破。
分析北京市统计局已有业务系统的现状:网络条件较好,但统计数据库建设缺少整体规划;统计数据资源相对独立,统计数据资源管理分散,不利统一管理,也不利于建立跨业务的新综合应用及数据开发和资源共享。
建立“适应型IT架构”
在过去的三年多时间里,国内很多行业通过“数据大集中”对自己的IT系统进行了不同程度的整合,如金融、电信、政府机构等,以建立适合自己行业特点的、能够在相对较长的时间周期内适应新技术和新市场需求变化的“适应型IT架构”。
这些大大小小的“数据大集中”项目,归纳起来有如下四类:
一、逻辑集中:维持原有系统软硬件状态不变,适当的对软硬件系统进行升级与扩充,尽可能做到系统同构,应用及数据兼容,主要体现在管理集中;
二、物理集中:将原来相互孤立的系统在物理上进行整合,采购相对大型的主机系统,用来运行大部分主要的业务应用系统,这种集中方式主要体现在物理设备大幅度减少,系统集中运行、集中管理,提高了系统的可用性和可靠性,降低了系统运行及维护成本。
三、数据集中:统一数据库平台,使原来各自独立的应用系统在数据上可以互通共享,提高数据的可用性,对提高系统的应用水平起到了促进作用。
四、业务应用整合:业务应用整合通常与IT系统的物理集中和数据集中同步考虑,同步实施,这是一种真实意义上的系统重构,使系统在整合完成后,达到最优状态。
上述四种“数据大集中”建设模式中无论那一种,都是相对固化的。一旦系统建成,要想对其进行调整以求适应新业务或新业务模式的需要,都可能牵涉到整体规划的改动,这是一个新的更大的信息孤岛。
国内统计行业经过十余年的快速发展之后,目前可能是对原有资产的管理和控制进行升级改造的最佳时机,但是要想避免走传统信息孤岛建设的老路,同时实现全系统IT资源的整合、实现信息及数据资源共享,必须采用新的IT整合战略,建立具有敏捷性的、可以对业务及“用户”不断变化的需求进行快速响应的“适应型IT架构”。
[[p align=center]][[image1]][[/p]]
为此惠普为北京市统计局提供的数据中心解决方案重点内容有:1、资源虚拟化设计,将现有资源与规划采购的新资源统筹考虑,整体设计,采用当前流行的、先进的三层架构模式,构建虚拟的数据存储层、数据库层、应用逻辑层和Web服务层;2、提供惠普的自适应解决方案模式,该模式明确地定义业务流程:指定应用和服务体系结构、安全和服务等级、流程复杂性、成本驱动因素、以及流程对所使用的服务提出的其它要求,支持快速改变、移植、扩展或重复使用。(■ HP市场及技术咨询部技术顾问经理 纪越)
构建虚拟数据中心
如何建立一个跨越当前各个业务系统的统计基础数据库系统?根据当前信息集成业界的常用方法,一般有三种设计思路:
一、构建逻辑只读综合数据库,建立统计综合查询应用。在这种模式下,原有的业务系统不需做出大的调整,甚至不需进行迁移,将各个业务应用数据库通过分布式数据库技术(例如视图、Database Link、同义词、联邦数据库等技术手段),把分布在各个业务数据库中的数据以适合统计综合业务所需要的格式和规范进行重新组合,建立一个逻辑上的综合业务中心数据库。这样形成一个逻辑上统一、物理上分布的综合数据库。
二、构建物理综合数据库,建立统计综合信息查询应用。这种实现模式是采用数据抽取集中的方式,将各个业务数据库中的数据按照综合业务的需要进行物理的抽取、转换、清洗、加载到即将建立的一个统计综合信息中心库中。
三、统一规划并重新建立统计综合应用。这种模式的关键在于对整个统计业务的彻底改造,依照统计综合信息系统建设要求,重新规划整个统计业务管理的信息结构、数据结构、业务流程、关联性、一致性等规则,各个业务部门共同建立综合信息中心库,重新改造现有的业务管理系统,建立后的综合信息中心库将同时支持原有的业务管理功能,以及统计综合信息业务应用。
基于北京市统计局的现状,IBM建议利用IBM Information Integrator建立逻辑集中的数据中心——虚拟数据中心。在此方案中,我们将不对当前分布在各个业务管理部门的数据库服务器进行物理集中,且不进行数据的迁移和集中存储处理,建立一个基于分布式环境的数据中心,统一规划并实施日常维护工作。
[[p align=center]][[image2]][[/p]]
具体方案是利用IBM Information Integrator建立一个信息集成访问接口,建立一个逻辑上集中、物理上分布的北京市统计局综合信息库。与前面分析的模式一不同的是,IBM Information Integrator 将会建立一个可读写的双向访问接口,这样就弥补了模式一及模式二中仅能实现信息的单向访问所带来的弊端。在IBM Information Integrator所提供的访问接口的支持下,就可以在一个整体数据库的逻辑视图下(这一视图是跨越北京市统计局的各个业务系统的),来实现新的面向统计综合业务管理的数据流程和业务流程,实现整个北京市统计局综合信息系统的开发和部署。(■ IBM软件部高级信息工程师 曾广咏)
离不开网络管理
随着国内经济的腾飞,国家对于统计的准确性、规范性要求越来越高。一般来说,统计数据的业务流程可以分为采集、传递、储存与处理到发布四个过程,前三个过程是通过网络平台和成熟的业务流程来保障的。用网络进行采集和传递就是从区县或村镇的终端设备将数据通过局域网、广域网上传到上层节点如地市、省中心。
在这个过程中实际上会牵扯到业务流程的模型和网络组网的方式的不同。举例来说如果业务系统采用传统的两层模型,数据库服务器一般就会放在地市一级的单位,那么数据的处理加工也会在地市,这时候对于以省为单位的数据来说,数据是分散在各个地市的,各个地市在处理加工完后分别汇总到省中心,再由省中心对数据进行相应的处理和发布,可以看出这种流程中间环节较多,数据的时效性不够。
如果采用数据大集中的建设方式,那么原有的数据模型就需要进行相应的改动,即可以将业务模型改为三层,中心数据层、业务逻辑层和用户界面层,中心数据层位于省统计系统中心,业务逻辑层位于地市、区县级统计单位,用户界面层则是数据采集、录入。采用这种数据系统结构模型加大了数据的技术复杂性,但增加了数据从采集到发布的时效性,同时也大大增强了数据的可靠性、规范性。在网络平台的组建上也可以有层次的将网络划分为核心层、汇聚层和接入层,有利于有效的规划和设计与业务量相关的网络带宽、设备的处理能力,保障网络的实用性和发展性。
总的来说,统计系统数据种类繁多、数据业务量大。如此繁多的业务在同一个网络上运转,需要网络能够对不同的数据业务进行有效的区分,为不同的业务提供不同的运行要求保障,还要求网络平台能够提供平滑的业务叠加能力,使得当增加新的业务时,能够平滑的在网上开展而不影响原有的网络结构。
[[p align=center]][[image3]][[/p]]
在建设数据集中的过程中,网络管理中心的压力会大大增加,因此完善的网络管理,包括事件管理、故障管理、配置管理、变更管理等都需要逐步完善。由于业务对于IT的依赖性越来高,因此也要求IT部门提供多种的服务手段,比如IT热线、网上应用问题案例等,通过有效的服务手段保障网络的可用性和稳定性。(■ 华为政府网络部高级市场技术经理 顾松)
|