全国金融标准化技术委员会
云计算技术研究——中国建设银行私有云探索与实践
更新时间:2017-12-28 15:44:13 点击量:

    自2006年美国的亚马逊推出世界上第一个云计算系统AWS以来,相关技术的发展突飞猛进,广泛应用于各个领域。全球云计算市场快速平稳增长,而在中国尚处于市场导入阶段,但其发展的速度及影响力惊人。2010年,中国云计算市场规模达167.3亿元,较上年增长81.4%。2013年,中国云计算市场规模达606.8亿元,2014年,中国云计算市场规模达1,174.1亿元。“十二五”期间,中国云计算产业规模可达7,500亿至1万亿元人民币。相信随着云计算“十三五”规划的实施,中国云计算产业将迎来黄金发展期。

    随着云计算的不断深入,银行业对相关技术的研究和探索从原有的概念到实际应用都取得了实质性的发展。引入云计算技术已经成为云数据中心今后建设与管理的主要目标,越来越多的国外银行开始考虑将传统IT基础设施迁移到云平台上,国内商业银行也纷纷启动云平台建设项目。2012年开始,建设银行率先进行了尝试,成为国内第一家在生产数据中心大规模应用私有云的商业银行,开创了先河,也取得了显著成效。这不仅仅是信息化建设的必然要求,同时也是建设银行业务转型发展的内在驱动。

一、建设银行私有云平台建设背景

    “互联网+”时代,信息系统以其高度的敏捷性和灵活性为银行业务发展提供运营环境和支撑保障,同时,业务的转型发展对IT系统的安全性、可用性与持续性提出了更高的要求,传统架构下的基础设施方案使数据中心的运维与管理工作面临着更多的困境与挑战,唯有创新思路、引用新技术才能为业务发展提供更加良好的运行环境。

    (一)建设和运维成本高

    大型国有商业银行一直以来采用最成熟、可靠的IT技术路线,通常使用国外主流厂商提供的信息技术和商业产品进行集中式部署,在信息技术实施、支持和保障上很大程度依赖于信息技术供应商,存在技术标准不统一、新技术应用和技术创新缓慢、投入产出比低下等问题,也使得银行自身缺乏核心技术积累,在技术路线选择上受制于国外厂商,被几大国外公司垄断。随着基础设施规模不断扩大,数据中心建设成本不断攀升,为了降低IT成本,国有商业银行亟须探寻自主可控的创新解决方案。

    (二)资源交付效率低

    在金融服务互联网化、移动化发展趋势下以及利率市场化挑战下,商业银行从战略和战术层面积极应对,提出了金融互联网、大数据、电子商务、客户体验等新的战略目标,并以此快速推出创新业务。但这些目标所需要的海量信息技术处理能力往往无法通过传统IT基础设施解决方案有效满足,即使传统方案能够实现,企业也难以承受漫长的建设周期,因此要满足新业务发展的响应速度,探索、采用新技术已经成为必然选择。

    (三)资源调整不灵活性

    传统商业银行系统架构的资源分配往往是固定的,是按照单个应用系统资源需求进行建设和部署,资源之间形成孤岛,不能灵活调整,例如在淘宝“双11”促销和电商秒杀等业务需求中,传统技术只能按照业务峰值配置基础设施资源,造成巨大的资源浪费。互联网金融、电子商务等业务快速发展,对基础设施资源的灵活调整、弹性伸缩提出了更高的要求。

    (四)运行风险日益突出

    商业银行数据中心作为“金融业跳动的心脏”,稳定运行和控制风险是第一要务。一方面,基础设施故障、突发业务压力、频繁变更上线都可能影响系统的稳定和服务质量,随着业务部门和上级监管机构要求不断提高,银行对数据中心高可用性的要求日益严格;另一方面,数据中心对外部基础设施、外部技术和服务的依赖性不断增强,网络入侵、信息泄露等安全风险日益突出。

二、建设银行私有云的实施情况

    2012年,建设银行成立了云平台规划组,对云计算技术进行研究,经过探索与实践,发现云服务的交付模式能够大幅提高科技部门的运营效率,增强科技对业务快速交付的支撑能力和服务质量,有效解决数据中心传统架构下建设和运维所面临的困境。2013年8月建设银行私有云平台项目成功上线和实施,有效地支持了新一代核心系统一期项目的投产上线,标志着建设银行正式开启云数据中心时代。建设银行私有云项目也荣获了2013年度银监会“银行业信息科技风险管理课题研究”一等奖、“2013年中国金融信息化年度十件大事”以及“IDC2014年度中国金融行业最佳(唯一)创新大奖”。

    建设银行的私有云管理平台吸收了云计算前沿的先进技术和理念,按照企业级、组件化的设计原则,设计开发了资源池管理组件、服务策略管理组件、自动化管理组件、流程引擎组件和自服务门户等,并支持“两地三中心”架构。此外,建设银行云管理平台根据金融行业私有云特性进行设计和优化,制定了私有云服务标准和规范以及硬件厂商接入标准,提供强大的资源池管理和服务策略管理、丰富的云服务套餐及云服务基础服务组件、智能的流程服务调度、全方位的资源及应用监控、自动化的运维操作管理,实现了真正意义上的一体化管理,全面支撑传统和新型的数据中心服务。

    截至2015年底,北京、武汉两个数据中心已建立74个资源池,近3,919个部署单元,新、老一代物理服务器数量达到8000+,虚拟机数量达到7000+,已形成覆盖WEB/AP/DB三层功能结构、LINUX/AIX/HPUNIX/Windows等多种平台、X86/小型机多种物理服务器类型的基础设施资源池,提供了68类云服务、196个云服务套餐、自动化应用发布、平台参数管理等多种运维自动化手段,为老一代、新一代系统提供了高效、快捷的运维模式。通过私有云平台建设,建设银行显著降低了IT运营成本和运维风险,真正实现了“服务标准化、供给敏捷化、资源弹性化、管理自动化、管控集中化”的管理目标。

三、建设银行私有云的特点与成效

    建设银行私有云架构包括云服务、云管理、资源池等部分,同时还与配置管理、监控管理、流程管理、容量管理等相结合,共同实现云管理的相关功能。其中,基础设施资源层面管理计算型服务器(包括X86服务器和小型机)、存储资源及网络资源;在资源之上,构建了弹性计算资源池、网络资源池、存储资源池,并通过云管理平台对各个资源池进行统一管理、统一调配,将各类资源整合为各种云服务,为应用提供快速的资源供给(见图1)。

 

图1 建设银行私有云架构模型

    建设银行私有云平台具有如下几个特点:

    (一)云服务定义与管理

    云服务以服务目录的形式提供给用户,通过识别服务、限定服务对象和内容、确定服务级别和规范来建立服务目录;通过云服务的业务定义设计、结构模型开发、操作模型开发、集成测试、服务发布几个过程完成云服务的开发;并通过将服务对应目录发布到用户自服务门户中,实现服务目录到云服务的映射。

    云服务管理将云服务开发的结果注册到云管理平台中,云管理平台根据注册的云服务信息,并结合自动化工具实现云服务的自动部署,形成服务实例以提供云服务能力。 云服务管理功能模型见图2。

 

图2 云服务管理功能模型

    (二)资源的全生命周期管理

    基础设施资源管理方面,建设银行通过虚拟化、资源池化的方式统一管理和分配资源,实现IT资源从规划、纳管、申请、分配、运维到回收的全生命周期管理(如图3所示)。同时,建设银行将云计算理念与企业实际需求相结合,规划设计了适应建设银行架构的基础设施云服务,实现了以云服务方式按需交付IT资源,以自动化方式响应用户需求,实现了资源供给时间从“周”到“分钟”的转变,大大提高了服务交付效率,初步达到“标准化、敏捷化、自动化”的目标。

 

图3 资源管理生命周期

    (三)资源的动态分配与共享

    建设银行云平台将云服务基础信息、服务套餐信息、服务操作模型、云服务参数有机结合,同时,对资源池进行有效的结构分层,通过将资源进行整合和池化,并利用高度自动化的管理工具实现资源的动态分配和共享,在规模化的基础上实现了对底层资源的充分利用,降低了单位IT资源的投入成本。例如,面对电商“秒杀”等业务突增需要短时间扩容需求时,数据中心发挥统一的资源池和云管理平台“削峰填谷”的作用,使资源能够在不同类型业务系统之间进行资源重新配置,快速完成回收和扩容,一方面避免了应对业务量突发所造成的系统疲软,另一方面又避免大量资源闲置而产生的成本浪费,最终将进一步向资源智能化动态弹性伸缩方向发展。

    (四)流程编排与工具自动化

    建设银行通过云管理平台将数据中心运行管理中的配置、变更、发布等流程和运行管理相关制度规范配置成标准的云服务,通过流程编排,设计端到端IT运维管理流程,满足完整全面的运维目标。同时,实现流程与工具相结合,在运维操作流程中通过自动化的实施和验证手段,确保所有操作准确可靠,在提高流程效率的同时,避免了手工操作带来的风险。此外,一体化的运维流程还有效支持了建设银行“两地三中心”的运维管理工作。

    (五)一键式应用发布与变更

    变更管理、发布管理和配置管理是IT服务管理中最核心的环节,但流程和工具的衔接断层是IT服务管理实施的一大难点,导致了ITIL最佳实践的“最后一公里”无法顺利落地。建设银行的云管理平台实现了与IT服务管理平台的深度融合,重新设计投产变更操作流程,依托工作流技术,建立应用版本发布和变更操作的可视化和自动化流程,实现了一键式敏捷发布与变更,由于采用标准化、脚本化操作,降低了操作风险,提高了变更效率,从而保障了业务功能安全、快速发布。

    (六)智能化事件监控及处置

    云环境下的监控体系为云服务正常高效运行、云平台优质服务提供保障,具有支撑容量规划和弹性伸缩的能力。云环境监控较传统架构监控更为复杂,但是操作则更加便捷实用、安全可靠。建设银行私有云平台通过有效的监控智能处置体系,建立了数据采集层、专业领域监控工具处理层、统一事件管理层、数据分析层、事件处置层、展现与运用层。从资源、应用、交易多维度实时监控系统运行情况,建立常见故障场景与处置模板,做到常见故障自动化处理,提高了应急响应及处置效率,从而确保云环境的运行安全。

    (七)系统的运行健康度分析

    建设银行采用分布式架构搭建了运行数据分析平台,通过实时采集系统、硬件、存储、应用、交易等各类日志及系统性能、事件、巡检等数据,分析系统运行的健康度,为日常运维工作提供决策依据。日志集中采集及分析平台逻辑架构见图4。

 

图4 日志集中采集及分析平台逻辑架构

    建设银行通过分析及可视化技术在数据与运维人员之间建立起桥梁,通过各类分析图表,尤其是非传统类型的图表,分析数据之间的关系,为性能管理、容量管理等提供数据支撑。此外,采集到的日志数据可以使用规则引擎和流计算技术对日志进行监控,监测异常的关键字,对多个日志进行关联分析,通过模式分析提早发现系统潜在的异常和风险隐患,实现故障预测。例如,当某个极少出现的词在短时间内频繁出现的时候,可能意味着系统出现了异常情况,需要运维人员及时关注。通过不断对分析模型进行调整,不断提升系统故障的预测能力。

四、标准化在云平台中的运用

    国有商业银行希望通过云计算技术,实现IT和业务融合,快速交付业务服务,使IT部门从成本中心、服务提供者的角色,转变为企业内各部门业务发展的战略伙伴,实现科技引领业务的目标。因此,银行数据中心的“云化”,是逐步实现技术、人员、资源、流程四个核心要素的有机融合和持续改进,实际上,就是从技术转向服务的过程。

    因此,云计算对数据中心运维模式产生深远影响。传统竖井式架构的系统部署和运维分工模式必然被打破,系统整合与一体化运维将引领今后的发展模式。同时,一体化的运维流程、标准化的系统建设、自动化的运维工具将会在银行业迅速普及。从建设银行私有云建设实践经验来看,私有云实施的前提和基础首先是做好标准化和规范化工作,这将为云服务设计、资源池构建、资源接口适配以及运维管理体系的建立夯实基础。

    (一)设计可配置、标准化的云服务

    云服务以服务目录的形式提供给用户,而云资源通过云服务的方式供给。为了实现标准化、可配置的云服务,可根据云服务的功能需求,设计出多种基础云服务组件,并进行云服务组件的封装和编排,形成包含不同软件内容的云服务套餐,从而实现可配置、套餐化的云资源服务。截至2015年底,建设银行私有云平台上发布了IAAS和PAAS共68类云服务,云服务从设计流程、镜像制作、脚本编写、运维操作都制定了相关标准规范。

    (二)构建统一、标准化的资源池

    资源池描述了物理基础设施资源的配置与管理,为云服务提供基础设施资源的支撑,是云平台的重要组成部分。在基础设施云架构下,计算资源、存储资源、网络资源在统一的云管理平台下被封装整合为资源池,以云服务的方式提供给服务使用者。建设银行在私有云实施过程中,按照应用对安全、高可用、可扩展等的要求,设计了底层核心的资源池业务逻辑,将底层独立的服务器资源池、存储资源和网络资源池封装成一体化的资源对外提供,在成本和可靠性上取得平衡,形成了基础设施统一的标准规范。

    (三)封装灵活、标准化的资源接口

    通常商业银行采用成熟、可靠的传统IT技术路线,在产品选择上往往采用通用的信息技术和商业软件,在信息技术实施、支持和保障上很大程度上依赖供应商提供的产品,而各个厂商存在技术标准不统一等弊端,因此,云管理平台为了提供统一的上层应用服务,需要实现资源适配层的封装,为了避免针对不同厂家、不同型号产品进行的大量适配工作,可进行业务功能抽象、标准接口协议封装,提供插件式服务,这样可快速解决产品异构带来的资源层差异大、适配难等难题,从而达到(实现)标准化的服务器、存储、网络资源接口适配等功效。

    (四)建立完备的、一体化运维管理体系

    随着云计算、大数据等技术的广泛应用,数据中心必须具备成熟的运行维护体系,保证应用系统高效、准确、稳定地运行,以此满足业务不断推陈出新的需求,为业务快速发展提供更有效的运行环境和技术支持。为此,建设银行以管理先进、技术适用、流程规范、要件标准为目标,进一步完善运维管理体系。首先建立一体化运维流程,通过运维流程/制度一体化、运维管理平台一体化、运维组织一体化来建立一套以服务为目标的企业级IT服务管理流程体系,形成运行维护集中化、标准化、规范化的管理模式。私有云平台建设以来,建设银行以矩阵式管理方式建立了15个一体化运维团队以及覆盖北京、武汉、上海三地数据中心的一套运维组织岗位体系;发布了24个一体化制度文件,遵循一套运行制度;规范了100多个运维服务流程,构建了适用于建设银行“两地三中心”的一套流程框架。其次制定非功能指标规范,包括52项运行指标、79项非功能设计约束、168项非功能设计指标及15项非功能部署指标四类,从系统性能、容量、可用性、可维护性、安全性等方面对应用系统的开发、测试、部署、运维提出要求,并通过评审、评价、测试等手段进行落实和管控;在此基础上建立了操作水平管理及评价体系,以围绕服务可用性、安全性和账务信息一致性三个关键服务为目标,建立了包括29个一级指标、55个二级指标在内的操作水平指标体系;以“指标量化,有效落实”为原则,结合系统重要等级、生产故障等级、指标权重等评价维度,建立了操作水平评估体系;以“信息传递畅通、信息有效透明”为思路,以自评、集中测评和定期报告为手段,建立了操作水平报告体系,从而有力地推进了系统运维的合规化进程。

    (五)提供多样的、开放性托管金融云服务

    云计算发展初期,企业从应用规模、安全性、建设成本等方面考虑,或者选择公有云,或者选择私有云,通常不会混用。而近几年,随着云计算技术的发展和企业需求的变化,公有云在标准化、规模化的基础上,开始注重细分行业的个性化需求,部分云服务商已相继推出行业解决方案,而私有云在满足安全性、个性化需求的同时,也越来越重视开放性、标准化技术的应用。建设银行在私有云基础上,进行了功能扩展,建立托管行业云服务平台,为海外分行、子公司及第三方企业提供IAAS、PAAS及SAAS的服务,取得了较好的成效,同时致力于研究混合云模式,深入探索和推进互联网金融云平台建设,提供更加多样化、个性化、精准化的金融服务。

五、对未来云计算标准化的展望

    (一)安全技术应用方面

    1. 形成云计算平台安全配置标准。云计算平台一旦出现安全问题,所有的虚拟机都可能受到威胁,建立云计算平台的安全配置基线,禁用高危配置,对云计算平台的最新漏洞进行监测、及时修补,实现云平台的安全监测和安全加固。

    2. 建立虚拟机安全策略配置标准模板。通过建立虚拟机的标准镜像模板,预置安全策略配置,从模板源头进行加固;对问题虚拟机能够单独隔离、安装补丁,实现虚拟机的安全加固。

    3. 制定软件定义安全的标准。适应虚拟化技术特点,可将安全设备物理部署和逻辑管控分离,通过软件定义方式,实现安全策略的快速部署和安全资源的灵活动态调配,满足虚拟化资源随时调度、动态配置需求。

    (二)云平台建设方面

    1. 资源管理的相关标准。从资源池规划上制定资源池标准单元内的计算、存储、网络硬件资源的集装箱式管理标准和逻辑资源分配标准规范;物理环境上需要制定服务器、网络、存储整机装配规划、设备上架及网络连接的标准等。

    2. 云服务的相关标准。从云服务的设计与部署、交付和运营过程进行制定,包括云服务发布中标准化镜像管理、部署模式、软硬件套餐,云服务的构建、供给、管理、维护计划等过程,通过定制流程向用户发布标准云服务。

    (三)运维管理方面

    1. 基础数据标准化。基础配置是云平台核心数据,必须保证其准确性,所以需要制定基础数据生产、消费标准化管控流程及标准化接口,通过基础数据的流程管控和自动化采集为云平台提供有效、准确的数据支撑。

    2. 运维监控标准化。分别建立资源、应用、交易、业务等监控标准指标体系,以模板推送、自服务等方式实现自动化部署;制定自动化监控、故障处置等规范,形成非功能指标,涵盖应用开发、测试、投产全过程。

    3. 运维操作标准化。将平台(包含操作系统、中间件、数据库等)、应用、网络等运维场景化,制定针对不同场景的框架标准,通过流程进行场景关联,形成标准化、自动化的运维流程。

(信息来源:2015年中国金融标准化报告)