金融分布式架构

SOFAStack 源于自蚂蚁内部沉淀十多年的金融级分布式中间件技术体系,吸收了支付宝自创立以来在关键金融交易系统锤炼出来的架构实践。SOFAStack 所有的产品技术均经过蚂蚁集团自身严苛的金融场景验证,为金融交易技术保证风险安全的同时,帮助业务需求敏捷迭代;同时满足异地容灾、低成本快速扩容的需求,能够解决传统集中式架构转型的困难,并通过打造大规模高可用分布式系统架构,来支撑金融业务创新。

SOFAStack 由三大领域模块组成:分布式中间件、运维管理(应用 PaaS)、高阶运维保障。

图片[1]-金融分布式架构-JieYingAI捷鹰AI

分布式中间件

蚂蚁分布式中间件的产品发展路径,一直秉承着引领和拥抱业界先进标准和实践的理念,同时亦能满足传统金融架构的平滑迁移和融合适配,以稳妥应对业务升级变更,并积极应对金融交易系统所面临的服务和数据扩展性、事务一致性、秒级容灾、弹性供给与调度等关键技术的挑战。

双模微服务

微服务平台(SOFAStack Microservice Platform)通过微服务(SOFAStack Microservice,简称 SOFAStack MS)和服务网格(SOFAStack Mesh),提供了既支持 SOFA 框架又支持 Service Mesh 架构的微服务管理和治理能力。

产品架构

产品优势应用场景

传统应用微服务改造

通过微服务产品将传统金融业务系统拆分为模块化、标准化、松耦合、可插拔、可扩展的微服务架构,可缩短产品面世周期,快速上架,抢占市场待机;不仅可确保客户服务的效率,也降低了运营成本。

高并发业务快速扩展

通过微服务产品开发互联网金融业务,可提高研发效率,更灵活地响应业务变化,快速迭代创新产品;并针对热点模块进行快速扩展来提高处理能力,轻松应对突发流量,同时提高用户体验,为更多小微客户提供个性化的金融产品和交易成本较低的便捷金融服务。

多数据中心异地多活

通过微服务产品可快速构建可扩展、高性能的金融级分布式核心系统,拥有弹性扩容和异地多活的能力。

任务调度

任务调度(Task Scheduler,简称 TS)提供分布式任务调度框架,实现任务的分布式处理,并能规范化、自动化、可视化和集中化地对金融企业不同业务系统的任务进行统一的调度和全方位的监控运维管理。

产品架构

产品优势应用场景

金融行业的批处理

该场景需要在规定时间内处理完指定的数据。传统的处理方式是根据数据库分片来处理,每台机器处理一个数据分片。这种方式的缺点就是当业务集群的机器数量大于分片数时,很多机器处于闲置状态,资源利用率低。集群任务允许用户自己对数据进行拆分,将待处理数据拆分成一个个索引块,业务集群中的每台机器都会分配到数据进行处理,使用灵活,并可以监控任务的执行情况。

金融行业的日切

金融行业的日切是一个很复杂的操作,需要多个任务按照指定顺序协同工作才可以完成。传统实现方式是在系统代码里指定任务的执行顺序,当业务发生变化时需要修改代码才可以正常工作,可维护性很差。使用 SOFAStack 任务调度中的任务编排功能,可以轻松完成任务之间的依赖调整,大大提高了可维护性,并可以直观地看到任务的执行情况。

消息队列

SOFAStack 消息队列是基于 Apache RocketMQ 构建的分布式消息中间件,为分布式应用提供异步解耦和削峰填谷的能力,支持多种消息类型,提供高可靠、高吞吐量、高可用、事务一致性的异步通讯能力。

产品架构

产品优势应用场景

异步解耦

通过生产消费模型解耦上下游业务系统,可提升业务连续性。上游应用作为生产方,将比较耗时且不需要即时(同步)返回结果的操作作为消息放入消息队列;下游应用作为消费者进行消息订阅和消费。只要保证消息格式不变,消息的发送方和接收方并不需要直接连接,任何一方的系统故障都不会对其他应用产生影响。

分布式事务的数据一致性

应用解耦后还需要确保数据的最终一致性,利用消息队列事务消息和消息的可靠传递机制,可以在实现系统解耦的同时,保证最终的数据一致性。

API 网关

API 网关(API Gateway)是一个 API 管理平台,帮助企业统一管理对内外开放的 API ,为网络隔离的系统间提供高性能、高安全性、高可靠性的通信,同时保障内部系统的安全性;用于满足企业对外部合作伙伴开放业务、企业自身混合云互通、企业内网异构应用集成的需求,帮助客户更好的进行场景和业务的创新。

产品架构

产品优势应用场景

前后端分离场景

异构系统集成场景

混合云场景

分布式事务

分布式事务(Distributed Transaction-eXtended,简称 DTX)是一款金融级分布式事务中间件,用来保障在大规模分布式环境下业务活动的最终一致性。在蚂蚁集团内部被广泛地应用于交易、转账、红包等核心资金链路,服务于亿级用户的资金操作。分布式事务可以与服务框架(如 SOFABoot、Spring Cloud、Dubbo)、数据源(如数据访问代理 ODP、RDS、MySQL、OceanBase)、以及消息队列等中间件产品配合使用,轻松实现服务链路级事务、跨库事务和消息事务等各种组合。

产品架构

产品优势应用场景

支付与转账

金融行业常见的支付、转账、账务等业务场景对于吞吐量有很高的要求。SOFAStack 分布式事务在各类大促中的优异表现证明了性能不会成为瓶颈。

财富理财

这类场景中往往涉及的金额较大,所以对于产品的稳定性要求非常高。SOFAStack 分布式事务拥有金融级的品质,可为业务的持续性与稳定性保驾护航。

保险与监管报送

参与方多、业务复杂度高是该类业务的典型特征。SOFAStack 分布式事务历经十多年的演进历程,足以灵活应对各种场景,满足事务一致性要求,保证与各类业务完美结合。

数据访问代理

数据访问代理(Open Database Proxy,简称 ODP)能够解决海量请求下的数据访问瓶颈和数据库的容灾问题,提供水平拆分、平滑扩缩容、读写分离的在线分布式数据库服务,为海量数据访问提供低消耗、高性能、高可用的轻量级解决方案。

产品架构

产品优势应用场景

海量数据读写

提供灵活的数据拆分机制,代码侵入性低,可以非常方便地实现数据的水平拆分与扩容,从而解决数据库单机瓶颈的问题。

金融级数据容灾

基于蚂蚁集团内部多年的金融级数据容灾场景,针对不同业务场景提供了多种机房级数据容灾解决方案,保障数据的稳定性与业务的连续性。

数据库流量分配

提供了基于规则的流量分发机制,通过部署多个数据库实例(如一写多读)的方式来满足大量查询业务的需求。

分布式链路跟踪

分布式链路跟踪(Distributed System Tracing,简称 DST)是一款面向分布式架构、微服务架构和云原生架构的应用可观察性的金融级解决方案,帮助用户厘清应用间复杂的调用关系,迅速定位故障或者缓慢节点。

产品架构

产品优势应用场景

问题的分析和快速定位

在分布式场景下,服务调用错综复杂,问题分析与定位非常困难。分布式链路跟踪系统能迅速定位到有问题的服务,协助快速解决问题。

应用性能和架构的优化

在调用关系拓扑中能对各个应用的调用次数和耗时情况进行查看和分析,找到负载较高和负载较少的应用,对资源进行一个合理的利用。

运维管理

SOFAStack CAFE(Cloud Application Fabric Engine)云应用引擎,提供应用管理、发布部署、运维编排、监控分析、容灾应急等全生命周期管理的 PaaS 平台产品,满足金融场景中经典架构和云原生架构的运维需求,帮助传统架构平滑过渡,保障金融技术风险。

应用场景

统一的应用运行平台

通过平台来解决大规模运维中发布、监控和审计的难题,并集成云原生的各种功能,例如容器、Serverless 和 Mesh 等,来提高运维效率。

金融级高可用架构平台支撑

提供同城双活、单元化、异地多活的 PaaS 平台支撑。

经典架构向云原生架构升级

满足金融基础架构向从容器到云原生容器化的落地路径,降低向新兴架构和运维模式的转型技术风险。

单元化应用服务

单元化应用服务(LDC Hybrid Cloud,简称 LHC)在云原生基础设施之上,在多机房、多地域的 Kubernetes 多集群场景,提供应用管理、发布运维、流量调拨、配置同步等能力。LHC 旨在提供从单 Kubernetes 集群向多活联邦集群演进的能力,提供具备容灾能力的同城双活、 两地三中心及更多机房级多活容灾场景。并可以配合 SOFAStack 各中间件产品、OceanBase 分布式数据库,形成单元化异地多活架构解决方案。

产品架构

产品优势应用场景

LHC 服务于云原生模式下,通过一套应用 PaaS 平台,提供统一的应用、资源管理,以及发布运维视图,实现多集群管理、跨集群应用运维发布、资源管理、流量管理。

同城双活(active-active)

在同一个地域 Region,建立两个或更多可用区下的多个 Kubernetes 集群。

两地三中心

异地多活(Multi-region active-active)

数据层做分片(Sharding),不同的 AZ 可以划分为更多的逻辑单元(Logic Data Center),处理不同的数据分片。 尽量保证数据访问的链路从接入层到应用层再到数据层不会出现跨可用区的调用。这种架构下,可以做到任意数量地域的多活。

异构基础设施下的混合云

通过 Kubernetes 屏蔽掉底层 IaaS 的差异性,可充分利用公有云上的资源,将业务同时在专有云和公有云上进行部署,并进行统一运维管控。在该场景下,可以帮助金融客户达到以下目的:

经典应用服务

经典应用服务(Classic Application Service,简称 CAS)以应用为核心视图,对应用的版本、发布包、资源等进行可视化、自动化管理。经典应用服务提供自动化、智能化的应用全生命周期 DevOps 支持,提升效率、降低成本、减少人为错误,让开发人员专注于业务逻辑本身。

产品架构

产品优势应用场景

传统运维能力支持

传统企业的大部分核心业务仍然未进行容器化,仍然使用传统代码包的方式进行虚拟机/物理机发布,CAS 支持传统运维方式向容器化运维平滑演进。

解耦 IaaS 与 PaaS

在经典运维场景,CAS 也支持阿里云的 IaaS 以及华为云的 IaaS 场景,后续的其他供应商 IaaS 正在持续集成适配中。让用户可以无需对底座有强依赖关系,真正做到 IaaS 与 PaaS 的解耦。

CICD 的集成

提供全面的应用生命周期 API,供上游 CI 平台进行集成,形成 CICD 闭环。

容器应用服务

容器应用服务(Application Kubernetes Service,简称 AKS)全面集成 Kubernetes,提供完整的集群管控、认证授权、容器网络、持久卷存储等方面的平台能力。在兼顾标准化一致性的 Kubernetes 能力的同时,亦将源自实践的应用全生命周期的发布部署能力通过产品化的形式交付。

产品架构

产品优势应用场景

使用 SOFA 技术栈的传统研发运维体系

这类体系的应用使用 SOFABoot 进行开发或直接使用 SOFA Mesh,系统间关系复杂,有依赖关系,并且深度使用了 SOFAStack 产品,需要和现有 PaaS 的发布部署能力做无缝对接:

说明

该场景下,您需在 AKS 中创建应用服务,使用 SOFABoot 运行时镜像作为基础镜像构建应用镜像,以原地升级方式进行发布单级别的部署,就可使应用服务在 AKS 上运行,与虚拟机提供的服务进行交互,并与现有 SOFAStack 产品做无缝对接。

使用 SOFA 技术栈的轻量级研发运维体系

这类体系的应用使用 SOFABoot 进行开发或者使用 SOFA Mesh,和 SOFAStack 产品有紧密结合。这类应用的特点为:

说明

该场景下,您只需在 AKS 中创建应用服务,使用 SOFABoot 运行时镜像作为基础镜像构建应用镜像,以原地升级方式进行部署管理,即可使应用服务在 AKS 上运行,并和现有 SOFAStack 产品无缝对接。

使用云原生技术体系

这类体系的应用通常采用传统 Spring 或者 SpringBoot 技术栈,配合 Eureka,ZooKeeper 做服务注册与发现,并配套 CNCF 生态的监控,链路工具,自成一体。这类的应用的特点为:

说明

该场景下,您只需在 AKS 中创建应用服务,使用 SOFABoot 运行时镜像作为基础镜像构建应用镜像,以原地升级方式进行部署管理,即可使应用服务在 AKS 上运行,并和现有 SOFAStack 产品无缝对接。

业务实时监控

实时监控服务(Real-time Monitoring Service,简称 RMS)是一款具有可视化监测能力的金融级监控产品。

基于日志、指标、链路等海量数据进行多维聚合,向用户提供业务监控、应用监控、云原生监控、基础资源监控、日志查询分析、分布式链路等多角度的可视化监测功能,有丰富的可视化大盘,并提供了告警订阅功能。

该服务可以帮助运维、研发、SRE (Site Reliability Engineer)等快速地发现问题、定位问题、分析问题、解决问题,为线上系统可用率提供有效保障。

经过蚂蚁场景历练,为大规模和复杂业务场景提供全方位的可观测性和洞察分析能力。

产品架构

产品优势应用场景

立体化运维

深度对接 Kubernetes、SOFA 等技术栈应用服务,一站式收集基础设施、中间件、应用运行时数据和业务数据,通过指标监控、日志分析、链路追踪、告警订阅等功能,对应用性能、运行状态和资源使用等提供立体化运维分析,及时发现并定位应用、资源及平台的问题。

问题分析与快速定位

在分布式场景下,服务调用错综复杂,问题分析与定位非常困难,分布式链路跟踪系统能迅速定位到有问题的服务,协助快速解决问题节点。

应用性能优化

在调用关系拓扑中,可以对各个应用的调用次数以及耗时情况进行分析,找到负载较高以及负载较少的应用,从而对资源进行合理利用。

高阶运维

TRaaS 技术风险防控平台,是以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托,形成的解决用户上云和分布式改造过程中,可观测、故障应急、容灾、混沌工程、资金安全、压测等运维问题的平台产品。

高可用管理平台

高可用管理平台(High Availability Service,HAS)是以容灾为主的高可用管控平台产品,可实现容灾方案的端到端整体能力,从客户业务到中间件、PaaS 以及 IaaS 整体的容灾切换及恢复、容灾规划、容灾模拟演练等能力,并包含整体机房及容灾状态的监控能力、容灾大盘展示、环境巡检、风险应急等。

HAS 提供容灾服务视图、预案编排能力、切换和恢复能力,支持多机房部署架构下的机房级别一键容灾切换和恢复。

产品架构

产品优势

技术风险防控内容库快速更新

阿里云、蚂蚁技术风险团队基于域内、域外技术风险防控经验,共建日常巡检、故障诊断、应急预案内容库,用户可享受最新的技术风险防控内容。

金融级容灾

容灾等级最高可达 5 级。

容灾能力丰富,支持容灾大屏监控告警、容灾仿真演练、容灾巡检等能力。

经过支付宝和网商银行规模验证。

全链路容灾

支持从客户应用到中枢态的全链路容灾能力,实现端到端整体容灾,全链路监控和运维,无需多平台对接。包含用户应用、中间件、PaaS、IaaS 全链路多层容灾。

多场景容灾

支持金融行业的全部容灾场景:

应用场景

日常风险防控

在日常的运维场景中,通过多功能模块的联动使用,自动化执行日常运维脚本,实现定期可控的日常巡检运维;同时不断更新优化日常巡检、故障诊断、应急预案等内容的建设,不断丰富和完善应用技术风险防控体系,简化日常应用运维操作。

故障演练

为不断提升产品高可用能力,通过高可用管理平台的故障演练模块,设计并规划演练计划和恢复方案,继而在演练过程中不断发现、解决容灾预案存在的问题。以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用性的有效提升。

机房级容灾

全链路压测

全链路压测(Loadcenter)为企业提供涵盖性能压测、压测报告输出以及压测风险防控的一站式压测服务。结合蚂蚁集团多年的线上全链路压测经验,为您提供高仿真、低成本、高风险识别的在线压测体验。

产品架构

产品优势应用场景

全链路压测适用于任何有压测或者模拟流量需求的应用场景。

新系统上线测试

新系统上线前,根据预期的业务模型对系统进行压力和负载测试,测试系统是否存在性能问题以及预期容量是否能够应对上线后的业务压力。

原系统基线回归

定期对线上系统进行恒定场景的性能回归,观察系统的性能是否存在变化,及时发现迭代、技术升级带来的系统性能衰减。

系统容量评估

在开展运营活动之前,对系统容量进行压测评估,根据业务场景持续加压,评估系统容量水位,以便提前进行优化和扩容,如有限流措施,也可以通过压测来进行验证。

系统故障演练

利用持续的压测流量来验证系统异常时业务是否会受到影响。可以利用压测流量配合故障注入演练、机房容灾演练,观察业务影响程度以及恢复能力。

资金安全监控

资金安全监控平台是一个通过旁路方式,对业务流程中资金流向进行实时分析和实时告警、从技术上保障资金安全的实时核对平台,旨在保障资金在流经业务系统时,不会出现资金流失的问题。

产品架构

产品优势应用场景

业务护航

帮助您阶段性地或定期梳理涉及资金链路的核心业务——通过配置核对规则,对各类数据作相互核对,或对数据内容作逻辑检查,确保核心业务运行无误。

变更风险检查

变更发布前,添加变更业务表与关联表的核对规则,或者变更业务表数据的检查规则,确保变更上线后不存在资损风险监控盲点。

历史数据扫雷

批量检查存量业务的历史数据是否已存在差异,及时分析差异原因并修复漏洞,追回资损。

数据质量监控

数据缺漏也可能间接引发资损。您可以配置核对规则来检查数据完整性,对数据质量进行监控,及时发现故障。

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
来说点什么吧!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容