2022年,“东数西算”工程正式启动,数据中心资源最大化共享、流通和利用的趋势对算力网络跨专业、跨区域、跨运营商的统一纳管、运维和管理提出了新的要求与挑战。为打造更智能、更高效、更安全的算网一体化运维管理模式,浪潮突破算网智能感知、模拟仿真、评估优化、数字孪生等关键技术,研发并推出算力网络自智管理平台V1.0,通过构建算网“自学习、自验证、自演进”的自智闭环,大幅提升算网运维的智能化水平。
“融智”破解运维难题
平台运用大数据、智能化、数字孪生等技术,通过连通算网各作业环节、串联各用户角色,构建以“运行-实训-评估”为中心的业务端到端闭环优化体系,有效解决算网运维过程中因跨领域、跨专业、跨区域、跨运营商等复杂因素而导致的运营和运维效率低下、缺少有效运维支撑工具等问题,实现“自主智能+交互主动”的新型算网一体化运维管理,提升算网的自智、自愈、自优能力,助力算网安全、高效、健康运行。
运行中心:实时感知分析,提升算网运行质量
平台运行中心负责对算网业务对象进行数据感知、采集、同步,对业务进行配置、控制、处理,能够对发生的事件进行实时感知和分析,并通过对算网的自动化运维和保障,实现对算网环境中资源、业务的全方位监控与管理,持续提升算网运行质量。
实训中心:推演交互联动,打造孪生验证平台
平台实训中心以算网数字孪生体为基础,对运行数据进行建模、分析,通过大数据分析、机器学习、仿真模拟等技术识别数据的深层规则和关系,并对评估中心生成的结果集进行推演及验证,同时将推演及验证结果同步发送运行中心进行在线发布,为算网运维提供智能化能力。
评估中心:持续反馈优化,沉淀算网业务资产
平台评估中心对运行中心产生的业务场景进行“一事一案”管理,通过实时检测运行数据、模型参数等评估算网运行质量,并对数据进行智能标注、训练和持续优化,逐步沉淀业务资产,将训练数据结果集提供给实训中心,进一步对相应规则和模型进行优化处理,助力打造端到端持续优化的运维保障能力。
“焕然一新”的智能体验
平台集合各类智能优化算法,从技术创新、用户赋能层面持续提升算网运维的自动化、智能化、精益化水平,支撑算网高质量运行,提升用户体验感。
多目标优化:算网智能推荐,提供新决策
平台将算网运维管理中涉及的计算、网络、存储、安全等多要素融合问题转化为面向客户需求的多目标优化问题,在个性化运维历史记录的基础上,引入智能算法持续优化,智能推荐最优运维方案,加速算网资源的协同调度、决策优化过程,提升运维效率。
算网孪生演练:算网营维场景,实现新验证
平台通过数字孪生技术实现实体算网与数字算网的交互、联动,为运维事件预测、脆弱点模拟和故障演练等提供推演能力,为算网优化决策提供可靠支撑,持续提升算网的可视、可管、可控水平。
运维知识图谱:算网流程闭环,形成新资产
平台通过对各专业的数据进行抽取、融合,整合算网的运营、运维数据,沉淀运维知识图谱资产,向算网智能运维提供必要的模型和知识库,为流程优化、故障预测、故障诊断、故障处理等提供有效的数据支撑,提升方案推荐和问题处理效率,保障业务应用的可持续性。
零信任安全运维:算网可信防护,构建新边界
平台通过零信任技术打破传统安全边界,采用统一认证管理机制与运维规则库关联实现零信任运维,将算力、网络、应用和身份策略结合,实现细粒度的动态访问控制,对安全事件早发现、早预警、早处理,增强算网运维的隔离性和安全性。
未来,浪潮将持续在算网智慧化领域开拓创新,不断探索更加先进的“算网自智管理”系列产品和解决方案,为客户提供更智能、安全、高效的一体化算网服务,推动构建更绿色、平衡、高效的算力网络体系。
暂无评论内容