系统建设目标 建设背景 监管背景
2016年12月30日颁布的《证券公司全面风险管理规范》要求当中,首次提出“证券公司应当建立健全数据治理和质量控制机制。积累真实、准确、完整的内部和外部数据,用于风险识别、计量、评估、监测和报告”。“证券公司应将数据治理纳入公司整体信息技术建设战略规划,制定数据标准,涵盖数据源管理、数据库建设、数据质量监测等环节。”
业务背景
中国金融行业发展迅速,随着互联网,软件等行业的推陈出新,全球信息化的进程也日益加快。证券公司在金融市场上发挥着日益重要的作用,也面临着市场、信用、操作、流动性各类风险的严峻挑战,证券公司应对这些风险的能力直接影响着金融市场和金融秩序的稳定性。与此同时,数据已经成为证券公司参与竞争的重要武器。
证券公司长期积累了大量的内部及外部数据,这些数据除了支持证券公司的自营、资管等各项核心业务,加快金融产品和服务创新,还越来越多的用于风险控制、决策分析、绩效考核等管理领域。如果数据错误、遗漏、缺乏统一标准、共享与整合程度不足,将导致问题数据如雪球般越滚越大,导致相关领域业务无法正常开展或者违反相关监管要求,导致决策出现偏差公司面临严重的风险。因此,建设数据中心,提高数据治理水平是提升证券公司核心竞争力的关键。通过数据中心系统的建设、数据治理过程的推进,证券公司可以提高其数据质量,形成数据资产,进而提高经营管理水平和风险管理能力。
技术背景
面对证券业协会对数据治理的监管要求和机构自身对加强风险控制、提升运营能力及关键业务的能力的需要。证券公司在数据治理工作上也面临着挑战:内外部数据呈爆炸式增长、新产品的出现、竞争环境和流程日益复杂、上级监管越来越细致。
数据治理除了构建专门的数据治理组织架构和工作流程之外,同时也需要有一个更加完善的信息技术系统规划战略。国内券商在IT系统建设过程当中,由于各种原因,虽然IT化程度相对较高,但是各种数据都存在各自的业务系统对应的IT系统当中独立存在,同时各个应用系统由不同的开发商开发实施,采用的数据库、技术路线都不一样,并不存在统一的数据标准和数据模型,孤岛化存在的数据为后续的数据分析、数据挖掘、风险管理带来了重重困难。
随着各个业务系统之间协同工作和数据交互越来越多并且越来越复杂,这样就造成了各个应用系统间数据关系形成了一张错综复杂的数据关系网,给系统的运行维护以及后续的系统建设和集成带来了不小的困难。点对点的数据交互模式也给核心系统带来了巨大的压力。
为了解决上述问题,有必要建设一个向下可以弹性兼容各个不同的数据源,向上可以为各应用系统提供数据支持的数据中心。数据中心的建立不但可以规范企业数据,减少数据冗余,减轻核心交易系统压力,增强系统的易维护性,提高系统的可扩展性,而且以数据中心为基础和载体进行数据治理工作可以达到事半功倍的效果。
系统现状 数据存储未整合,不利于充分利用
证券公司在运营过程中生成了大量的数据,这些数据包括交易、清算、营销、财务、资讯、人力资源、资产管理、自营等企业数据,虽然这些数据部分已经同步到同一服务器,但数据未进行有效整合,各系统依旧孤立。企业决策人员、统计分析人员、业务人员很难根据自己的意愿,及时地、灵活而多角度地查询和分析数据,也不能充分利用、发掘现有数据,实现更大的效益。
数据标准不统一,不利于价值发现
证券公司现有系统之间数据的结构和标准都不统一,如果借助传统的方法进行数据分析,不但繁琐复杂,而且无法满足对业务变化的快速反应,更不能站在整个企业的角度了解企业整体情况并发现数据之间的联系做出进一步的分析和预测。
数据交换不统一,不利于质量控制
目前各个系统之间的数据交换都采用各自的采集程序,没用统一的监控、跟踪和核对机制,很难保证数据的完整性,也不利于问题的发现和定位。
服务交换不统一,不利于服务共享
各系统间存在功能冗余且口径不一等问题,缺少统一的服务交换平台,无法实现交易系统、呼叫中心、营销管理、投顾系统、CRM等各系统的服务充分共享。
外部数据未接入,不利于全面分析
证券金融市场有很多的外部数据,比如征信数据、互联网舆情数据、竞争公司数据等,这些数据现在都没有接入到证券公司的IT系统中,造成很多数据分析工作不够全面,不利于业务的全面展开。
系统目标定位 搭建数据仓库,作为数据治理工作的基础和载体
完成公司级的数据仓库搭建工作,成为公司级数据治理工作的载体。在数据仓库中进行元数据管理、数据质量管理、数据标准定义、数据口径统一管理等数据治理管控工作。
整合各个应用系统数据,提供标准的数据接口
完成源系统调研,整合各个应用系统数据,提供标准的数据接口,形成公司唯一的、标准化的数据源,提供标准和灵活的数据交换接口,支撑各个业务系统的数据访问,实现数据资源的共享。
优化数据交换和IT应用系统架构
建立公司的数据基础平台,完成公司要求的数据输入输出,将网状的数据关系优化为星状。实现ETL过程和数据质量的自动化管理,对ETL过程和数据质量进行全面的监控和管理维护。
建立适用于证券公司各类业务的完整指标体系
建立适合公司实际业务运行情况的指标体系,提供现有的指标库体系供参考,涵盖公共指标、风控指标、财务指标、集团联动指标、营业部/分公司等经营机构分类评价指标、自营/资管等各业务条线指标等。建立符合公司实际情况的企业级数据仓库技术架构和数据模型,为各类统计报表、领导者驾驶舱和数据分析挖掘提供数据支持。
完成前台应用建设,为证券公司各业务部门提供数据支持
根据证券公司各业务部门的实际业务需求完成领导者驾驶舱的开发、数据分析和数据挖掘开发、分析报表开发以及交互式报表等前台应用开发。
证券公司数据中心的总体建设目标是建立基础数据模型、ETL调度平台、数据中心指标体系、数据质量管理平台、数据接口服务、领导者驾驶舱等,形成统一数据标准、确保数据采集完整、保证ETL数据质量、形成统一的数据展现。具体目标为:
建立符合证券公司实际需求的数据中心技术架构。 提供符合监管要求和证券公司业务需求的数据治理体系架构。 建立符合证券公司实际需求的企业级数据模型。 建立方便内部管理、帮助数据理解、增加分析敏捷性的公司级的覆盖技术元数据和业务元数据的元数据管控体系。 完成数据标准化工作,形成公司唯一的、标准化数据源,支撑各项业务管理系统的数据访问。 支撑公司各项业务数据的统一采集、统一存储、统一访问管理等功能。 使用专业成熟的ETL工具,进行对不同种类数据的抽取、转换、加载等各项部署、实施,并能对启动条件、依赖关系、状态及错误日志统一管理。同时ETL工具和调度平台能够支持和大数据平台进行数据交互。 实现ETL全流程调度自动化管理,对ETL 过程进行全面监控和管理维护。 实现ETL过程中的数据质量管理工作,灵活通过校验方式和校验规则的搭配,保证数据中心数据质量。 建立全面和标准的数据中心指标体系,统一管理证券公司各类业务口径,全面的反映证券公司各项业务的原子指标。 提供标准和灵活的数据接口,保证现有系统的数据源平滑过渡到数据中心,支持公司拟建和未来需建的各类系统。 按需要提供各类数据的汇总,满足数据报表和不同主题数据集市的需要。 通过对基础数据模型的分析,形成数据集市,并展现公司级别的经营状况。 建设原则
本项目是xx迈入大数据管理的第一步,旨在利用大数据技术搭建数据中心,对当前业务系统的数据进行采集集中、组织规划,从而为后续的业务开展和公司管理提供数据支持。本项目在建设过程中,要遵循如下原则:
自主创新的原则
在项目的规划和设计过程中,将从xx的业务系统现状和业务发展出发,同时考虑到证券公司后续业务发展的需要。在具体建设过程中,不完全使用已有第三方软件供应商提供的数据中心产品。整个系统的设计和搭建将自主创新,完成整个系统的搭建。
合作开发的原则
数据中心项目是一个开发项目,不是一个通过产品安装就能够完成的。xx信息技术部将全程参与系统的设计和开发工作。
逐步推进的原则
利用大数据技术和数据仓库理论建设数据中心项目,这样的过程是要经历过一定的时间阶段的。为此,在每一期建设过程中,我们将明确目标,实现数据中心建设的完整框架,后续的建设将逐步推进。
数据中心建设项目的进行过程中,xx信息技术部参与整个项目进度的控制和项目管理过程中的每个细节。供应商参与开发人员要完全受信息技术部的项目管理要求,并遵循信息技术部的相关规范。
标准性原则
在项目的各个阶段,尤其是设计阶段,要从整个公司级别考虑问题,制定的相应业务规则和数据字典要能够作为公司级的数据标准。
术语定义
ETL
--Loading,数据抽取、转换和加载
DDL
Data Define Lanuage,数据定义语言,即数据库的各种建库,建表语句。
ODS
Data Store,操作性数据存储,是一个面向主题的、集成的、可变的、当前的细节数据集合,用于支持企业对于即时性的、操作性的、集成的全体信息的需求。常常被作为数据仓库的过渡
EDW
Data ,企业级数据仓库,是一个面向主题的(Subject )、集成的()、相对稳定的(Non-)、反映历史变化(Time Variant)的数据集合,用于支持管理决策( Making Support)。
CDM
概念数据模型(CDM),用于表示数据的逻辑特性,即只是在概念上表示数据库中将存储什么信息,而忽略这些信息的实现细节。同时,它也是对系统主要实体的高层次业务见解,比如识别关键主体领域、定义核心实体的主键。
LDM
逻辑数据模型(LDM),即实体关系模型,是一种描述数据的模型。它利用实体和它们之间的关系描述包含在显示世界中的数据。这是一个比较详细的数据业务见解,比如细化实体间关系,详细的属性定义(主外键、索引等主要属性),添加了关联的、特色的以及子类的实体,尽可能详细化的范式(遵循第三范式),实体间的约束关系等。
元数据(),指的是关于数据的数据,即对数据的描述。元数据描述了数据的结构、内容等多项内容,提供了对数据对象的描述、定位、管理、检索、评估、选择和交互等功能。元数据是数据对象的信息地图,通过元数据管理,能够准确勾勒出证券公司数据资产的整体视图,支持科学制定信息数据管理政策,通过元数据管理,也能够建立统一的数据表达形式、元数据标准,使数据可视化,方便数据的灵活交互和扩展。
HADOOP
Apache Hadoop是一个开源软件库,支持超大数据的分布式处理,此类数据集分布在数千台使用普通硬件的计算机中。Apache Hadoop项目由Hadoop分布式文件系统、和Hadoop Common等子项目组成。此外,还包括HBase、Hive、Pig以及其他相关技术。Hadoop非常适合处理大体量的静态数据。
系统技术设计 系统技术架构 系统总体框架 系统逻辑架构
无论承载数据中心的基础数据库是ORACLE之类的关系型数据库还是Hadoop之类的大数据平台。从数据仓库的理论出发,我们可以将数据中心以及和数据中心相关的系统从逻辑上进行划分。大致可以分为源业务系统、数据基础平台、数据服务平台、智能分析平台、数据管控平台、业务展现平台这几部分。
源业务系统:数据中心数据的来源,证券公司内部各类生产系统或者互联网数据。数据中心对接各个源业务系统进行ETL工作,将证券公司内部的数据以及互联网上获取到的外部数据集中到数据中心,进行数据标准化和数据建模工作。
数据基础平台:负责数据中心数据标准化、模型化、持久存储工作。从技术上分为数据存储和数据计算两大功能;从数据类型分为结构化和非结构化两类数据平台;从数据中心数据存储的层次分为原始层、ODS层、EDW层、数据集市层四类层级。
数据服务平台:负责数据中心所有对外数据接口的管理工作,通过数据服务平台实现数据中心和下游应用分析系统的数据对接工作。数据服务形式一般有被动采集和主动推送两种模式。
智能分析平台:负责将数据中心的数据和指标进行智能分析,快速形成各类报表和图表应用以及进行数据挖掘的工作。智能分析平台通常会内嵌商业智能分析和数据挖掘软件比如Cognos、mstr、FineBI、SPSS等。
数据管控平台:负责数据中心任务调度、数据质量管理、元数据管理、数据接口管理、数据权限管理以及运维监控功能的管理平台。负担整个数据中心体系中数据的管理、控制、校验、监控、分发工作,通常情况下会将业务展现平台集成到数据管控平台中,进行统一集成化管理。
业务展现平台:负责将数据中心的产出物包括报表、图表、驾驶舱、数据标签、数据分析和挖掘的结果进行有机集合,形成针对业务人员使用的前端展现工具,通常会集成到数据管控平台中。
系统技术架构
xx数据中心项目的数据存储和计算服务已经采用cdh版的Hadoop大数据平台。因此数据中心技术架构基于Hadoop大数据平台进行设计。
数据存储采用hdfs集群模式,这种数据存储模式具有超大文件处理能力、流式数据访问能力、横向扩展能力、廉价的服务器需求等优点。
数据计算采用Hadoop原生的计算、SPARK引擎计算、HIVE类 SQL 查询语言相结合的模式来保证应对数据中心业务处理中的各类计算场景。
数据应用可以细分为数据中心自身的数据分析和对接下游系统的数据服务两类。在数据应用方案的设计上采用关系型数据库接口和大数据平台数据接口相结合的方式。这种数据应用模式的优缺点如下:
优点:充分考虑到数据对接类型的全覆盖,以避免数据分析软件或者下游系统无法对接Hadoop数据接口的风险。 缺点:增加了数据中心的ETL工作量,同时由于多了一层关系型数据库和大数据平台的数据交互需要额外增加数据质量控制机制来保证数据应用的数据质量。
根据目前现状,在充分考虑公司未来 3-5 年的业务发展需要,总体达到性能指标如下:
系统性能指标列表
指标项
指标值
前端展现在线用户数
不小于3000
并发用户数
不小于300
客户历史数据保留期限
长期保留
日、周报表数据生成时间
小于1小时
月度报表数据生成时间
小于2小时
实时数据ETL处理时间
小于1分钟
日终数据ETL处理时间
小于2小时
数据整合时间
小于2小时
一般查询响应时间
小于3秒
查询时间超过3秒的功能占比
小于5%
在数据抽取清洗(ETL)的每一个环节出现错误时都应有相应的出错处理、恢复流程,错误处理应尽量通过系统自动恢复实现,需要通过人工干预处理的,出现错误后应能通过各种途径通知维护人员。常见出错处理方式:
错误类型
错误内容
处理方式
系统异常
数据库连接失败
自动处理,重连
数据库空间不足
自动提醒,手动扩展空间
程序异常退出,如机器掉电,强制结束进程
手动处理,重启程序,系统自动保证事务一致性
应用异常
主键冲突
自动手动结合,系统分析导致主键重复的数据,由相关人员手动排除错误。
数据类型转换失败
手动处理,手动排除错误。
字符串转换越界
自动处理,自动截断字符串,并记录日志,作提示,供相关人员参考。
数据库死锁
自动重试,重试后错误依然存在的,记录错误信息,手动处理。
由于柜台数据结构变动引起的数据转换不完整
手动处理,修改转换过程。
数据核对有差异
手动处理,检查数据差异。
数据采集工具在处理的每一个环节都有完善的出错处理,可以根据客户的需求,设定出错的的处理原则,例如放入临时表,导出出错文件,或者是发EMAIL或者是短信网关通知相关的人员。
系统的安全性表现在对系统网络、数据传输、数据存储、业务功能展现全过程的安全控制与管理方面。数据的传送的安全性,通过技术平台的数据安全机制,如自定义动态加密算法、校验算法、用户认证证书等,可有效地保证数据从客户端的接收至服务端的处理全过程的安全。而从业务部分来说,系统通过对登陆用户采用统一的用户认证服务器进行身份的合法性验证,通过对操作员操作身份认证与操作权限的严格限制,确保了业务处理在身份认证与权限上的安全控制。
网络安全性
网络安全技术主要解决诸如如何有效进行介入控制,以及何如保证数据传输的安全性的技术手段,主要包括物理安全分析技术,网络结构安全分析技术,系统安全分析技术,管理安全分析技术,及其它的安全服务和安全机制策略。本项目可以综合利用虚拟网技术、防火墙技术、病毒防护技术、入侵检测技术、安全扫描技术、认证和数字签名技术、VPN技术、应用系统的安全技术等多种技术相结合的方式来保证网络的安全性。
数据安全性 数据存放
数据库的安全性是指保护数据库以防止不合法的使用所造成的数据泄露、更改或破坏。所有核心数据存放在数据库中。具体安全措施包括:防止非授权的数据库存取;防止非授权的对模式对象的存取;控制磁盘使用;控制系统资源使用;审计用户动作。
数据访问
数据抽取服务器对数据源的数据只有读取权限,无其余任何查询、修改、删除数据权限。数据接口服务模块对数据中心的数据只有读取权限,不具有修改和删除的权限。
操作安全性 错误提示
系统对错误都有明确的错误信息提示,从而大大加快了问题的解决,保证系统稳定安全的运行。
操作人性化
系统的界面设计针对用户做了非常细致的考虑,尽量做到系统运行无人值守,系统运行发现问题能够尽快提示给相关人员。提示友好而准确。
配置管理
系统有详细的配置清单。
容错机制
系统在实时数据抽取,日终文件传输,日终文件导入和清洗流程均有相应的容错机制。
WEB安全性 证书安全
系统WEB中间件支持加载证书,支持HTTPS协议。
用户口令保护
系统所有应用都受用户口令保护,只有通过用户口令校验之后才能访问,每个请求在递交给应用服务器前,都首先判断是否已通过用户认证。
权限控制
业务展现平台、数据管控平台的权限控制基于角色与组织架构来控制。结合BI系统可以将权限控制对应的字段。相关授权与重要功能的读写留痕,并有专门功能提供查询。
系统具有完善的容错功能,数据库服务器、网络设备、存储设备及相关系统和软件均有冗余设计。系统所有应用服务器提供冷备份措施,当其中一个应用服务器出现故障时快速接管。
数据基础平台
本次系统建设的关键是首先要建设一个公司级的数据中心,抽取现有各交易系统、账户系统、资管系统、TA系统、资讯系统、SOEM等系统的相关数据,并进行标准化和提供各业务系统二次开发标准接口。具体可以分为数据抽取清洗、数据标准化及建模、领导者驾驶舱应用、数据管控平台4个部分。
ETL包括从业务系统抽取数据,进行整理和转换,然后进行数据加载。在目前的环境中,可以界定为从源系统的取数据到装载数据入核心数据库的这段过程。下面的图描述了ETL和相关部分的具体数据流。
下图为通过ETL建立数据仓库的整体过程:
ETL主要完成以下内容:
从各类同构或异构生产库系统抽取、转换、加载数据到大数据平台的ODS数据层。 根据xx需求按照一定主题建立的数据模型,抽取、转换、加载ODS数据到大数据平台的企业级数据仓库层即EDW层。 根据数据中心模型设计规范与xx的数据需求建立完整的数据中心指标体系。 根据xx业务条线或者部门级的需求按照数据中心既定的数据标准和规范加载转换EDW数据和指标库数据到各类数据集市。 数据源
xx数据中心团队和风险管理团队历经多年的风险管理数据采集、数据中心系统数据采集工作,积累了非常丰富的各类证券系统数据对接经验。
从系统类别的角度看,数据中心数据源采集对接经验如下:
接口类别
支持接口数量
典型接口
完成状态
集中交易
UF2.0/金证W版/金证U版/顶点ABoss
已投产
TA系统
xxTA/金证TA/xx自建TA/金证自建TA
已投产
资管系统
xxO32/xx资管SQL/铭创V8
已投产
资讯系统
Wind咨询/Wind金融数据库版/港澳资讯SQL版/聚源资讯
已投产
固收系统
海益固收/Comstar/衡泰固收Xir
已投产
账户系统
xx账户系统/顶点账户系统CIF
已投产
估值系统
xx估值基金版/xx估值保险版/赢时胜估值
已投产
财务系统
15
用友23/用友55/用友63/金蝶EAS/浪潮财务
已投产
融资融券系统
xx融资融券/金证融资融券
已投产
从xx现有应用系统的角度看,数据中心数据源采集对接经验如下:
客户名称
接口名称
完成状态
xx
xxTA
全面风险团队已投产
xx自建TA
全面风险团队已投产
用友财务系统
全面风险团队已投产
集中交易系统xxUF2.0版
全面风险团队已投产
融资融券系统xxUF2.0版
全面风险团队已投产
海益固收系统
全面风险团队已投产
账户系统xxUF2.0版
全面风险团队已投产
*请认真填写需求信息,我们会在24小时内与您取得联系。