大数据之系统运维和管理功能要求

一、概述

大数据系统的运维和管理功能包括安装部署、配置管理、租户管理、监控告警管理、服务管理、健康检查和日志管理功能的要求。

二、安装部署

安装部署功能要求,如下:

a) 应提供图形化界面自动进行系统及服务组件的安装/下载;

b) 应支持通过一种或多种方式进行服务部署,如模板、部署方案及自定义等方式;

c) 应支持集群部署时自动扫描及手动方式添加节点;

d) 应支持安装前对软、硬件等进行配置和检测功能,如服务器、客户安装的操作系统等;

e) 应支持系统基于不同架构的硬件环境进行安装部署;

f) 应支持系统部署(安装/修复/升级)失败给出修复方式,如重试、回退等方式;

g) 应支持系统的安装/升级操作具备容错能力,不因个别节点的故障导致整个过程的失败;

h) 应支持自动化打通集群内部节点无密SSH的能力;

i) 应支持自动识别、格式化、挂载各类型磁盘的能力;

j) 应具备设置机房断电恢复后服务快速恢复运行的能力;

k) 应支持多集群多服务;

l) 应支持开发工具包、数据库、身份认证等部件的预集成;

m) 应支持与第三方管理平台对接或提供开放API,方便用户自定义服务组件接入;

n) 应支持管理节点主备部署方式,主节点失效不影响对外功能;

o) 应支持主备节点自动切换,当主节点失效时,备节点主动接管主节点服务;

p) 应提供主备节点数同步机制;

q) 宜支持在集群不重启的情况下增加、删除节点;

r) 宜支持设置数据均衡,避免集群新增节点后将新数据均放到新节点;

s) 宜支持多种粒度的系统升级或修复,同时不中断业务;

t) 宜支持系统的自动重装。

三、配置管理

配置管理功能要求,如下:

a) 应支持图形化操作界面对系统的配置项进行管理,包括查看、修改、删除、自定义等;

b) 应提供每个配置参数的中英文命名和完整的解释;

c) 应支持多种方式对配置项进行管理,如:分类、分角色、分组等;

d) 应支持显示配置文件各配置项;

e) 应支持配置项的批量导入导出;

f) 应支持配置项或配置文件的上传、下载、更新

g) 应支持滚动重启方式生效、不中断业务;

h) 应支持手动和自动方式推送配置项的更新给集群内相关节点;

i) 应支持配置参数的历史版本、过期管理和溯源能力;

j) 应提供配置参数模板;

k) 应提供配置参数的默认值、阈值,针对可调参数应给出推荐值;

l) 应支持角色组或实例组的管理,各个组下允许有不同的参数配置;

m) 应支持配置修改后同步到使用的客户端;

n) 应支持多种参数的配置能力,如部署路径、时钟同步、部署模式、安全模式、角色布局等参数;

o) 宜支持参数的相互影响识别,修改某参数对其他参数产生的影响给出提示或联动修改。

四、租户管理

租户管理功能要求,如下:

a) 应支持以角色、用户、用户组的方式管理租户权限;

b) 应提供图形化界面管理角色、用户、用户组;

c) 应支持权限控制到服务内的资源,如表、目录、文件等资源;

d) 应支持租户管理,包括删除、创建等;

e) 应支持系统和组件间的单点登录,以及系统与第三方系统间的单点登录。

五、监控告警管理

监控告警管理功能要求,如下:

a) 应支持对集群、主机、服务、实例等多维度运维对象监控;

b) 应支持对集群规模、资源使用情况、资源运行状态等进行监控;

c) 应支持服务及服务组件监控指标的自定义;

d) 应支持监控项的定制功能,包括:展示方式、可视化的监控项等;

e) 应支持监控项的多种展示方式,包括:图形、表格、时间线等;

f) 应支持监控数据的导出、归档和清理等管理功能;

g) 应提供监控数据可视化报表的生成与导出功能,包括手动和自动两种方式;

h) 应支持图形化界面查看监控和告警,并支持按不同关键字查看;

i) 应支持报表能力,按照多维度提供资源统计报表,如:用户、租户、目录等;

j) 应支持数据汇聚和分析能力,给出数据的均值、最大值、最小值等;

k) 应支持与第三方管理系统对接、上传监控和告警等数据;

l) 应支持对不同级别告警信息设置处理优先级;

m) 应提供告警功能定制功能,包括名称、级别、阈值等;

n) 应支持告警自动通知功能,如邮件、短信等方式;

o) 应支持故障自动检测并发送告警,故障恢复后告警能够自动消除;

p) 应支持故障修复后校验,以检查故障是否恢复成功。

六、服务管理

服务管理功能要求,如下:

a) 应支持展示所有已安装服务及实例健康状态、运行状态等信息;

b) 应支持对服务、服务实例进行操作,如添加/卸载、启动/停止、强制停止、配置修改等;

c) 应支持服务进程挂起后自恢复的能力;

d) 应支持对服务进行升级以及升级失败后的自动回滚;

e) 应支持实时检查各服务进程的运行;

f) 应支持对服务配置的在线修改及同步;

g) 应支持可视化方式查看和下载指定节点服务角色的日志;

h) 应支持对分布式服务进行水平缩容/扩容的能力;

i) 应支持检测服务的可用性及发现问题时发送告警;

j) 应支持基于开源的大数据系统对开源组件原生UI的集成;

k) 应支持停止或重启某个服务时,上层服务联动一起停止或重启或给出提示;

l) 应支持通过各种策略(如分批、主备依次等)重启单个服务,同时不中断业务;

m) 应支持下载服务客户端;

n) 应支持服务和数据自动恢复到新增或者是更换之后的服务器。

七、健康检查

健康检查功能要求,如下:

a) 健康检查功能定期自动检查和手工检查;

b) 应支持对网络、服务器、操作系统及各服务健康度的定期检查;

c) 应支持按照场景进行检查,如升级前检查;

d) 应支持输出检查报告;

e) 宜提供界面化的系统运行环境自动检查服务。

八、日志管理

日志管理功能要求,如下:

a) 应提供各类日志的收集 与存储功能,如运行日志、操作日志等;

b) 应提供日志目录的管理功能,如更改日志存储空间、更改日志存储目录等;

c) 应提供图形化页面检索运行日志;

d) 应支持按照关键字段检索,如指定关键字、日志级别、服务、主机等;

e) 应提供日志的查询、过滤设置、导出等功能;

f) 应支持日志级别的设置功能;

g) 应支持操作日志的审计能力。

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享