仅供个人参考
Fo o n o d y a n d n o o m m u
银行业对象存储平台设计
不得用于商业用途
仅供个人参考
目录
一、企业非结构化数据存储的现状及痛点...................................................................................................................3
(1)现状..................................................................................................................................................3(2)痛点..................................................................................................................................................3
二、企业非结构化数据存储优化思路...........................................................................................................................3
(1)采用对象存储方案思路...............................................................................................................4(2)对象存储方案与传统分布式NAS方案的对比及总结............................................................5
三、平台测试与体验........................................................................................................................................................6
(1)测试内容.........................................................................................................................................6(3)测试过程及结果.............................................................................................................................61、功能性测试..................................................................................................................................6
3、接口可用性测试.......................................................................................................................144、系统可靠性测试.......................................................................................................................17
2、部署灵活性测试.......................................................................................................................13
不得用于商业用途
仅供个人参考
一、企业非结构化数据存储的现状及痛点
随着本行数字化业务的持续开展和监管要求的不断提高,其中影像系统、呼叫中心系统,以及已经上线的后督系统等各类应用系统产生的影像文件、音频、视频等非结构化数据急速增加,本行正面临现有的文件存储设施不能适应业务增长、系统管理复杂、扩展能力差、访问能力差等问题。因此需要启动开放式海量非结构化数据的存储平台项目,满足本行海量的非结构化数据存储、读取、管理需求。
(1)现状
目前我行的影像数据主要分两块,一块是地市影像数据,主要承载着事后督查业务,一块是总行影像数据,主要是柜面和信贷的影像数据。11个地市的影像数据目前分别存放于11个SAN存储当中,根据地市的业务规模不一,存储容量也不一,平均每个SAN存储约50TB。总行影像数据通过存储分层架构实现在线、近线和离线数据的存储和隔离。在线存储存放于闪存(FS900)当中,约5T,保存了近7天的影像数据,并通过IBM的ECM客户端定期迁移至ECM系统所在的近线存储(DS8870)当中,约20T,保存了近30天的影像数据,最后再通过TSM备份软件每日将近线存储中的影像数据备份至华为(5300V3)离线存储当中,约200TB,当信贷或者柜面业务需要调取7天的影像数据时,直接读取在线存储,调取 30天的数据时,先通过ECM客户端将ECM中数据抽取至影像平台,再传给业务系统,调取30天以上的数据时,需先通过TSM备份软件抽取备份的影像数据至ECM系统,再传给影像平台,最终传给相关业务系统。
(2)痛点此架构通过存储的分层,不同性能的存储提供不同的IO 服务,确实也在项
据还是离线数据,影像数据的位置与影像数据间的关系等信息均存放于ECM 数据库
当中,该数据库为联机型关系数据库,随着数据量的剧增,ECM数据库的数据量已达到近5TB,7天以上的数据调阅均需要访问先ECM数据库,来获取数据位置,然而目前庞大ECM的数据库,并发读取性能已经越来越不满足业务的需求,因此数据调阅响应时间也越来越长。因此迫切需要对现有影像以及ECM的数据存储架构进行转型,精简该存储架构,全面提升影像数据的存储效率。
二、企业非结构化数据存储优化思路
鉴于我行目前非结构化数据主要存放在SAN集中式存储上,而传统存储采用集中式的元数据处理方式,因此,当我行影像系统在处理千万、亿级的文件量时就会出现陡峭的性能骤降拐点,直接表现就是前端影像平台处理效率降低,柜面、信贷、事后督查等涉及影像的业务效率的下降,最终导致客户满意度的下降,这显然不利于我行的健康持久发展。因此我行需要对现有存储中的
不得用于商业用途
仅供个人参考
海量数据进行整合、精简存储架构,目前非结构化海量数据存储较好的方案主要有传统分布式NAS方案和对象存储方案。传统NAS存储方案由于和现有SAN存储方案类似,都是基于文件系统的方案,均为树形目录组织结构,随着数据量的增大,同样存在文件寻址越来越慢的瓶颈。另外如果将现有SAN方案改为NAS存储方案,IOPS和IO响应时间还有所降低,尤其是在线储存目前所用的为闪存阵列,近线存储为DS8870,地市后督影像存储为华为5300V3,NAS方案显然不适合对现有架构进行改造,且存在越改越差的情况,并且对NAS存储的容灾备份方案,依旧是两套NAS镜像的方式,副本数较少,备份效率低,数据一致性校验困难。因此我行在非结构化存储架构转型偏向于对象存储方案。
(1)采用对象存储方案思路
我行期望通过使用分布式对象存储架构替换传统的SAN存储架构,能够解决海量非结构化数据的集中存储及访问问题,提升非结构化文件存取效率,解决地市影像和总行影像存储单点问题,并尽可能的精简现有非机构化数据的存储架构。而分布式对象存储能够保证不丢失数据、不中断服务、提供良好的用户体验,解决存储扩容复杂问题。由于分布式对象存储采用扁平化的数据组织方式,所以目录架构扩展性强,耦合性低,增删节点时所需迁移的数据少。整体而言,在业务系统、IT性能以及运维方面都带了本质的提升。因此利用对象存储的方案,可以解决我行三个方面的问题:
1、精简非结构化数据存储架构。对总行而言,之前我行的存储架构为闪存-DS8870-华为5300V3,三层存储架构,且存储和现有生产交易类存储闪存和
费严重,占用过多的存储空间,其他对IO 响应时间要求较高的交易类系统,可能反而得不到高性能的存储。二来该存储架构过于冗余,数据存储具有大量迁移过程,
DS8870共用,一来非结构化数据不适合放于IO 响应时间优异的存储当中,性能浪
数据来源于事后监督系统通过抽取总行ECM 的历史数据而来,数据和总行数据
重合,却并不是总行数据的副本。而采用对象存储方案,可以通过总行和地市部署存
储节点和访问节点的方式,将所有存储打通成一个大存储资源池,所有影像数据均放
在该存储池,形成二层精简架构,所有数据的存取,包括柜面、信贷、后督系统对
影像数据的存储,均通过本地的访问节点访问,大大提升了访问效率。
2、提升非结构化数据的副本数和冗余度。相较于现有存储架构中的单副本数据,由于对象存储池中的数据可划分为多个副本,且每份影像数据也通过切片的方式分布于所有存储节点当中,因此数据的冗余度也大大提升,即使某一个或者多个存储节点发生故障,或者访问节点发生故障,均可以通过其他存储节点和访问节点获取数据。
3、提升非结构化数据的存取性能。虽然目前的方案中闪存的引入,对于7 天的影像数据的存取效率大大提升,但历史影像数据的调阅性能较差,导致该问题的一个主要原因在于历史影像数据调阅需要通过ECM 客户端访问 ECM系统中的存储数据,而该访问的过程首先要读取ECM 数据库,获取存储数据的位置和地址,才能获取存储当中的数据,这样的弊端在于随着ECM 数据库中数据量的增大,数据库访问效率大大降低,30 天历史影像数据的调阅也就越来越慢,无法满足
不得用于商业用途
仅供个人参考
柜面及信贷对影像数据的需求,至于30天以上的历史数据就更加如此,除了需要访问ECM数据库之外,还需要访问TSM备份系统,通过TSM备份系统自动将要调阅的数据恢复至ECM系统中,再上传给影像平台,供其他系统调阅。因此整个过程实际上耗费了大量时间在数据查找和数据传输上,即使底层存储采用了SAN存储,性能较对象存储强,但加上这些时间,总体调阅时间大大提高。因此倘若采用了对象存储,访问时间就仅仅为对象存储的寻址时间,没有其他时间的消耗,这样性能也就大大提升。
因此,对本行的非结构化数据存储架构的改造而言,采用对象存储方案是最优的方案。但同时,另一方面,采用对象存储,也将给我行带来两个方面的问题: 1、传统的文件系统读取的方式将改为对象存储API的方式。需要对应用进行改造,增加接口,修改程序代码。
2、原闪存、DS8870、5300V3中的存储数据需要通过调阅的方式迁移至对象存储当中,涉及的数据量较多,耗时较长,且影像系统在数据迁移过程中,不能有中断现象,迁移时也要对其他业务系统提供影像服务,因此,整个平滑迁移与过渡的方案要理清。
(2)对象存储方案与传统分布式NAS 方案的对比及总结
我行在对非结构化数据改造过程中,也考虑过传统NAS 方案,对经过对比,发现传统 NAS 方案并不能满足我们的实际需求,下面一张图为对象存储与分布式
NAS方案的对比:
该图总结而言,相对于传统的SAN 存和 NAS存储,对象存储具有以下优点:1、降低数据存储成本
不得用于商业用途
仅供个人参考
对象存储可以使用低廉的X86服务器+对象存储软件实现,存储成本比较低。
2、数据可用性
RAID,当一个RAID磁盘出现故障,系统会慢如蜗牛需要数小时或数天来重建阵列。大多数对象存储使用纠删码技术存储数据,经过合理设施后,可以以较低的副标数量保证数据的可用性。而数据恢复只需要数分钟便可以完成,而且数据可用性不会中断,性能也不会明显退化。
3、大容量和高扩展性
对象存储系统中,没有目录层次结构(树),对象的存储位置可以存储在不同的目录路径中易变检索。这就使得对象存储系统可以精准到每个字节,而且不受文件(对象)数量、文件大小和文件系统容量的。对象存储系统可以不需要文件名、日期和其他文件属性就可以查找文件。他们还可以使用元数据应用服务水平协议(SLA),路由协议,备灾和灾难恢复,备份和数据删除删除以及自动存储管理。这些是文件系统所不能解决的问题。
4、容灾备份优势
对象存储系统如果设计合理,并不需要备份。多个副本可以确保数据始终保持可用状态,而且异地灾难恢复备份也可以被自动创建。、
5、性能优势
利用分布式实现大规模I/O并行读写。每个节点都是的,提供了集群的切入点,并运行相同的代码。这使得工作量可以平均分配到集群中的所有节点上,
I/O 自动选择合理的节点,保证系统性能最大化。因此,在现有SAN 存储架构、传统 NAS存储架构方案和对象存储方案中,我
避免NAS 和集群文件系统中常见的热节点问题的出现。自动负载均衡可以让
们最终决定选择采用对象存储方案来对现有SAN分层存储架构进行改造。
经过充分的测试内容、方案的准备和测试中详尽的过程记录,发现这款对象存储软
件十分优异,下面将整个测试内容和测试过程汇总如下:
(1)测试内容
通过对如下内容的测试来验证IBMCleversafe 产品是否满足业务需求:1、 产品基本功能,如对非结构化数据的上传、修改、删除
2、 产品的部署可行性和灵活性。包括部署的复杂度,模拟跨站点等场景3、 产品的接口可用性性。和应用系统的对接开发可行性,对应用系统的改造 可
行性。
4、 产品的可靠性。是否有完善的性能保障方案,保障系统稳定可靠运行。
5、 产品的易用性。包括图形化的前端界面,方便日常的维护操作管理。
6、 产品的可维护性。包括硬件更换,系统升级,监控管理和日志管理。
(3)测试过程及结果
不得用于商业用途
仅供个人参考
1、功能性测试
【产品功能展现】
A、案例编号:001
B、案例名称:产品功能的基本展现
不得用于商业用途
仅供个人参考
C、案例场景描述:创建对应的存储池(storagepool)、访问池(access)、 库(vault)。
D、案例实现描述: 系统初始化完毕后,在管理界面实现对应配置,存储池选取生 成的六台slicestor,访问池选取配置CloudStorage 链接方式,即S3,
创建一个 IDA 为 | 4/5/6 的 | Vault,即读阈值为 4,写阈值为 5,宽度为 6。意 |
味着此库会将写入的数据通过纠删码计算为6片,当获取其中4片时,即完成读操作,当成功写入5片时即完成写操作。
此时一个全新的系统,所有由虚机构成,有一台manager,两台accesser,六台 slicestor
创建accesspool:
不得用于商业用途
仅供个人参考
第一个红框表明此accesspool 是使用何种API进行调用访问创建库(vault=bucket),即逻辑上的存储空间。
第一个红框即为IDA的配置,第二个红框是一些可选功能,依次为加密、版本管理、防删除,第三个红框为是否需要S3header 来构建索引。
【对象读写删操作】
A、案例编号:002
B、 案例名称:存储系统的上传,下载,删除C、 案例场景描述:通过 S3Browser 工具,完成文件的上传、下载及删除
D、案例实现描述: 通过 S3 Browser 连接到已经创建好的Vault,上传一个实 例文件,确认存储系统对应的空间被消耗,下载此文件,确认可以被访问后,删 除此文件。
不得用于商业用途
仅供个人参考
当vault创建完成后,需要配置该vault对应的accesspool,以及用户权限,亦可简化配置Vaulttemplate。
产部署后对应的是负载均衡器的服务IP),access key ID需要在管理界面中生成获取,如下截图:
S3Browser 中的存储类型选择 S3兼容存储,endpoint 即为accesserIP(生
不得用于商业用途
仅供个人参考
第一步:进入securitytag,点击进入需要连接存储的账户(此账户可能对
应的是某应用或某管理员)
不得用于商业用途
仅供个人参考
第二步:进入特定某用户,如果已经生成密钥,即可直接拷贝,如果没有
生成过密钥,则点击右边GenerateKey
第三步,将此key拷贝配置到S3Browser 中
不得用于商业用途
仅供个人参考
S3 Browser 可以查看到对应的 vault和执行的上传下载操作。
在 S3 Browser 上完成删除操作
不得用于商业用途
仅供个人参考
2、部署灵活性测试
B、 案例名称:各节点的灵活部署
C、案例场景描述:在管理界面展现各站点机器的部署情况
D、案例实现描述: 模拟六台 slicestor分布在不同的三个城市的机房,其中
accesser、manager在分散在这三个机房中。
在系统中逻辑部署成三个站点:九江、萍乡、南昌,存储系统可以做到灵活部署和配置,一方面满足我行组网需求、一方面提升运维效率。
不得用于商业用途
仅供个人参考
不得用于商业用途
仅供个人参考
3、接口可用性测试
【接口对接】
A、 案 例 编 号 :004
B、案例名称:接口调用及可用性
C、 案例场景描述:展现具体的 S3 API 的调用方式D、案例实现描述: 分别展现 S3Browser 和CloudBerryExplore 两种工具采
用S3API 的调用方式配置对象存储,以及对应JAVA语言,采用AWSSDK 及 Curl的方式
如果通过 S3 API 的方式访问,其 access key 和在测试案例 2 已经描述。
S3 Browser 的配置界面:
不得用于商业用途
secret key 的获取方式已
仅供个人参考
CloudBerryExplore:
不得用于商业用途
仅供个人参考
不得用于商业用途
仅供个人参考
4、系统可靠性测试
【Manager 节点失效】
常上传测试
所有正常运作的虚机节点
不得用于商业用途
仅供个人参考
将managershut down
不得用于商业用途
仅供个人参考
S3Browser 中的log显示,读写操作均正常
不得用于商业用途
仅供个人参考
【Accesser 节点失效】 A、案例编号:006
置两个endpoint 的对象存储,可以看到一个endpoint 无法访问,但是另外
一个endpoint 正常使用,并测试文件上传,以及之前上传文件的下载
关闭accesser1
不得用于商业用途
仅供个人参考
在 CloudBerry 中,当两台accesser 都正常的时候,可以同时读取vault 中
的文件,而当其中一台accesser 失效是,第二台已经可以获得所有数据。
失效前:
失效后:
【Slicestor 节点失效,不同IDA 配置】
A 、 案 例 编 号 :007
B、 案例名称:系统可靠性-slicestor失效,测试不同 IDA 的系统能力
C、案例场景描述:当 slicestor 失效时,在满足IDA 设置的极限值内,系统能 够正常运作
D、案例实现描述: 在 IDA 为4/5/6 的情况下,失效一台可以正常读写,失效
不得用于商业用途
仅供个人参考
两台可以正常读,失效三台系统失效;在IDA为3/4/6的情况下,失效一台或两台均可正常读写,失效三台可以正常读,失效四台系统失效。
配置两种不同的IDA从而观察当slicestor一台台失效时,系统的行为。
当一台slicestor失效时:
不得用于商业用途
仅供个人参考
读操作正常,可以看到所有vault当中的文件,写操作正常,可以新添加图片
当两台slicestor失效时:
不得用于商业用途
仅供个人参考
IDA456已经无法写入,报internalerror,读正常,可以展示之前所有的
图片。而IDA346则读写正常
不得用于商业用途
仅供个人参考
当三个节点失效时:
IDA456无法进行读写,IDA346依然可读,但是不可执行写操作。
不得用于商业用途
仅供个人参考
当四个节点失效时,IDA456和IDA346的vault都无法正常读写。
【扫描和重构】
D、案例实现描述: 在 IDA 为4/5/6的桶下,写入部分数据,在某台slicestor
中找到对应的数据盘,删除上面的切片数据,监控管理界面的Rebuild 程序,
当发现Rebuild 完成后,暂停另外两部没有改动的机器,测试读取刚刚写入
的文件,从而验证刚刚坏损的数据获得Rebuild。
在未写入数据时,先使用root权限,进入slicestor6,查到到最底层,无切片数据。从 CloudBerry工具也是零数据
不得用于商业用途
仅供个人参考
当写入一个9.1MB的文件时,我们可以发现有三个切片文件出现,按照每4MB一个切段的原理,因此一台slicestor会存有3个切段数据的六分之一的切片数据,如下截图
在第三块磁盘中找到切片数据
将其中第一个切片数据进行DD篡改,只修改其中的一个字节,count=1,15:43启动篡改。
此时关闭另外两台没有更改过切片数据的slicestor4&5,发现下载对象。
不得用于商业用途
仅供个人参考
重启两台刚刚关闭的机器,观察slicestor6 的Rebuild情况(注:UI 显示
界面与实际物理机操作有三分钟左右延时。)
不得用于商业用途
仅供个人参考
大约在3分钟后开始扫描程序。
不得用于商业用途
仅供个人参考
暂停slicestor4&5后,可以直接读取
同时,在log中,也能够获取对应重构的信息,时间戳也能匹配。
5、系统管理性测试
【系统监控、报警、报告】
不得用于商业用途
仅供个人参考
A、案例编号:009
B、案例名称:系统监控、报警及报告配置
不得用于商业用途
仅供个人参考
C、 案例场景描述:观测之前系统测试中,所出现的异常D、案例实现描述:在管理中控界面,观察之前一系列异常动作,展现告警数据、
性能数据、告警提示配置、日志配置界面、报表配置界面等
告警总控台:
性能数据监控:
告警配置:
收集日志配置:
不得用于商业用途
仅供个人参考
报表配置:
不得用于商业用途
仅供个人参考
6、系统可维护性测试
【网页troubleshooting】
不得用于商业用途
仅供个人参考
A、案例编号:010
B、案例名称:网页版的 troubleshooting中控台
C、案例场景描述:在管理界面中实现 terminal界面的debug指令
D、案例实现描述:实现一键点击 troubleshooting指令
在webUI 中,能够对在线的机器进行简单的debug,发送一些常用指令,检测其结果。
A、 案例编号:011 B、案例名称:简易在线升级【在线系统升级】
【在线硬件更换】
A、案例编号:012
B、案例名称:在线硬件更换
C、案例场景描述:在管理界面中简单步骤实现一台机器的替换
D、案例实现描述:额外生成一台 slicestor7虚拟机,实现硬件替换功能创建第七台slicestor
不得用于商业用途
仅供个人参考
可以看到slicestor7已经approved进入到系统中了,第一步点击右侧的
replaceDevice
第二步,确认源机器和目的机器
不得用于商业用途
仅供个人参考
当数据迁移完成后,会显示对应状态
注意:替换下来的机器需要重新安装后才可以继续使用。
【在线容量扩容】
A、案例编号:013
B、案例名称:存储池扩容
C、案例场景描述:在管理界面中简单步骤实现存储池的扩容
D、案例实现描述: 展示存储池扩容界面
在普通模式下,测试环境允许最小宽度为6,生产为9,需要通过工程模式设
的storagepool,在此仅作功能演示,不作为以后配置参考。
置宽度为3
点击右上角“ExpandStorage Pool”扩容存储
总体容量增加,从而获得两倍的容量
不得用于商业用途
仅供个人参考
7、系统安全性测试
【系统安全测试】
A、案例编号:014
B、案例名称:系统安全性测试
C、案例场景描述:系统各个环节保障存储数据安全性
D、案例实现描述: 加密一共分为两个层面,一块是网络层,包括网络传输 (TLS/SSL/SNMPv3with AES)和设备CA认证,另外一块是数据加密,包括
问方面,有对 vault的权限控制,每个用户也有对应权限的配置,通过密钥的方式访问。
本身纠删码(ErasureCoding)的运算和 SecureSlice可选功能,在系统访
不得用于商业用途
仅供个人参考
在新机器配置managerIP 时,会要求是否接受manager的CA验证
此指纹与 manager唯一匹配。
如果有新的机器要加入到系统中时,主控界面会提示有新的机器加入,当点
击approve 之后才可以进入整套系统,避免非法的伪装机器进入。
本身纠删码的计算就是将原数据按照系统算法预生成的某个矩阵,进行重新编码计算。切片数据对外已经是乱码,不可读状态。而在纠删码之前,通过ANOT编码的机制,进一步通过随机生成的密钥加密数据,并将加密后的数据和密钥异或后的值,打包密文,形成一个完整的AONT包。
从而将一个切片数据进行了三层的加密包裹,而一个对象文件1GB 举例,将有 250 个segment(切段,每个4MB),而破解数据则需要从众多节点、磁盘上精准获取对应对象的离散切片数据中的读阀值,反向破解三层,重复此流程250 次后,方可获取原对象。
不得用于商业用途
仅供个人参考
等。
而每个用户可以对应的分配不同权限、角色
不得用于商业用途
仅供个人参考
每个用户可以按照应用需求,生成多对密钥
不得用于商业用途
仅供个人参考
仅供个人用于学习、研究;不得用于商业用途。
Forpersonal use only in study and research; not for commercial use.
Nurfür den pers?nlichen für Studien, Forschung, zu kommerziellenZwecken verwendet werden.
Pourl 'étude et la recherche uniquement à des fins personnelles; pas àdes fins commerciales.
толькодля людей, которые используются дляобучения, исследований и не должныиспользоваться в коммерческих целях.
以下正文
不得用于商业用途
Copyright © 2019- tjwe.cn 版权所有
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务